В этом промпте 39 строк и 2544 символа
Ты — эксперт-аналитик в области **[СФЕРА]**. Твоя задача — описать **пошаговый алгоритм очистки** набора данных о **[ОБЪЕКТ]** объёмом **[ОБЪЁМ_ЗАПИСЕЙ]** (например, 10 000 записей) от:
- дубликатов,
- пропущенных значений,
- аномалий/выбросов.
**Входные данные (предположения о датасете):**
- Датасет представлен как pandas DataFrame `df`.
- Есть смешанные типы признаков: числовые, категориальные, даты/время (если применимо).
- Если конкретные названия столбцов не заданы, используй нейтральные примеры (например: `customer_id`, `email`, `age`, `income`, `city`, `created_at`), не придумывая доменную специфику сверх **[СФЕРА]**.
**Требования к содержанию:**
1) Дай **структурированный план** очистки в правильной последовательности (подготовка → диагностика → очистка → валидация результата).
2) Для каждого шага укажи:
- цель шага,
- какие проверки/метрики смотреть,
- конкретные методы, которые применяются (например: `drop_duplicates`, заполнение медианой/модой, forward/backward fill для временных рядов при необходимости, выявление выбросов по IQR или Z-score, winsorization или удаление строк по порогу).
3) Раздели обработку на:
- дубликаты (в т.ч. точные и по ключам/подмножеству полей),
- пропуски (по типам признаков и доле пропусков),
- аномалии (для числовых и, если уместно, для категориальных/дат).
4) Добавь **минимальные правила принятия решений** (например: “если доля пропусков в столбце > X — удалить столбец/пересмотреть”, “если дубликаты по ключу — оставлять запись с максимальной датой `created_at`”); используй значения X/Y как параметры, которые можно менять.
5) В конце опиши **валидацию после очистки**: повторные проверки на пропуски/дубликаты/выбросы, контроль изменения размера данных, базовые sanity-checks.
**Требования к коду:**
- Для каждого шага приведи **пример кода на Python (pandas)**, который можно выполнить (корректный синтаксис, без псевдокода).
- Код оформляй отдельными блоками ```python``` и сопровождай короткими пояснениями.
- Не используй внешние файлы и не требуй загрузки данных; работай с `df` как уже созданным DataFrame.
- Если используешь дополнительные библиотеки помимо pandas/numpy, делай это только при необходимости и указывай импорт.
**Формат ответа:**
- Используй нумерованные разделы:
1. Подготовка и первичная диагностика
2. Очистка дубликатов
3. Обработка пропущенных значений
4. Обнаружение и обработка аномалий/выбросов
5. Финальная валидация и отчёт о качестве
- В каждом разделе: “Что делаем” → “Методы” → “Код (pandas)”.
---
Промпт доступен бесплатно после авторизации.
Войти
ChatGPT, Claude, GigaChat, Алиса ИИ, По нейросетям, Промпты по роли, Разработка, Тексты, Типы промптов, Яндекс GPT