Промпт: пошаговая очистка данных от дублей и аномалий

text-to-text

text-to-text

В этом промпте 39 строк и 2544 символа

Ты — эксперт-аналитик в области **[СФЕРА]**. Твоя задача — описать **пошаговый алгоритм очистки** набора данных о **[ОБЪЕКТ]** объёмом **[ОБЪЁМ_ЗАПИСЕЙ]** (например, 10 000 записей) от:
- дубликатов,
- пропущенных значений,
- аномалий/выбросов.

**Входные данные (предположения о датасете):**
- Датасет представлен как pandas DataFrame `df`.
- Есть смешанные типы признаков: числовые, категориальные, даты/время (если применимо).
- Если конкретные названия столбцов не заданы, используй нейтральные примеры (например: `customer_id`, `email`, `age`, `income`, `city`, `created_at`), не придумывая доменную специфику сверх **[СФЕРА]**.

**Требования к содержанию:**
1) Дай **структурированный план** очистки в правильной последовательности (подготовка → диагностика → очистка → валидация результата).  
2) Для каждого шага укажи:
   - цель шага,
   - какие проверки/метрики смотреть,
   - конкретные методы, которые применяются (например: `drop_duplicates`, заполнение медианой/модой, forward/backward fill для временных рядов при необходимости, выявление выбросов по IQR или Z-score, winsorization или удаление строк по порогу).
3) Раздели обработку на:
   - дубликаты (в т.ч. точные и по ключам/подмножеству полей),
   - пропуски (по типам признаков и доле пропусков),
   - аномалии (для числовых и, если уместно, для категориальных/дат).
4) Добавь **минимальные правила принятия решений** (например: “если доля пропусков в столбце > X — удалить столбец/пересмотреть”, “если дубликаты по ключу — оставлять запись с максимальной датой `created_at`”); используй значения X/Y как параметры, которые можно менять.
5) В конце опиши **валидацию после очистки**: повторные проверки на пропуски/дубликаты/выбросы, контроль изменения размера данных, базовые sanity-checks.

**Требования к коду:**
- Для каждого шага приведи **пример кода на Python (pandas)**, который можно выполнить (корректный синтаксис, без псевдокода).
- Код оформляй отдельными блоками ```python``` и сопровождай короткими пояснениями.
- Не используй внешние файлы и не требуй загрузки данных; работай с `df` как уже созданным DataFrame.
- Если используешь дополнительные библиотеки помимо pandas/numpy, делай это только при необходимости и указывай импорт.

**Формат ответа:**
- Используй нумерованные разделы:  
  1. Подготовка и первичная диагностика  
  2. Очистка дубликатов  
  3. Обработка пропущенных значений  
  4. Обнаружение и обработка аномалий/выбросов  
  5. Финальная валидация и отчёт о качестве  
- В каждом разделе: “Что делаем” → “Методы” → “Код (pandas)”.

---

Промпт доступен бесплатно после авторизации.

Войти