Title

Урок 1

Почему бизнес-контекст
важнее модели

Фундамент. Контекст. Импакт.

Урок 01

Понимание
бизнеса

Прежде чем переходить к алгоритмам и моделям -
понять, какие проблемы мы решаем и почему они важны.

Bota

О себе

Привет, я Бота

Родилась в Алматы, Казахстан. Чтобы работать в IT, не обязательно уметь программировать - 80–90% должностей в Microsoft, Google и Facebook не требуют кода.

me = {
  "name": "Bota",
  "city": "Almaty, KZ",
  "born": "1989-12-19",
  "linkedin": "https://uk.linkedin.com/in/bota-abdraimova"
}
ML everywhere

Machine Learning везде

За цифрами

Рынок ML: реальный спрос в цифрах

+34%
Прогноз роста рабочих мест Data / ML
2024 / 2034 · США
U.S. Bureau of Labor Statistics · Occupational Outlook Handbook, 2024-2034
$120K
Медианная зарплата в год
диапазон $78K - $193K+
$78K $120K $193K
U.S. Bureau of Labor Statistics · May 2023
+256%
Рост вакансий с 2013 года
накопленный, по миру
Market.us · LinkedIn Jobs Report

Парадигмы ML

Три способа, которыми машины учатся

ML paradigms mind map

Принципы или применение?

Два подхода к обучению

Академический

Сначала - принципы

  • Изучить теорию
  • Вывести заключения
  • Применить на практике
Практический

Сначала - применение

  • Сразу брать готовые инструменты
  • Постепенно заполнять пробелы
  • От 80% к 100%
Карьерный совет

Не стремитесь быть дата-сайентистом или инженером - станьте мостом между бизнесом и технической командой.

Дисклеймер

О чём этот курс - и о чём нет

01

Прикладной ML

Не победы на Kaggle. Не создание передовых AI-систем с нуля. Реальные задачи бизнеса.

02

Фокус - бизнес

Мир ML огромен. Мы концентрируемся на практическом применении в реальных бизнес-задачах.

Дополнительные ресурсы

Fast.ai Kaggle Learn Andrew Ng / Coursera DataCamp Codecademy Google "Rules of ML"

Ситуация

Вы - Head of Data Science

Финтех-стартап

Стали бы вы собеседовать кандидата без финансового опыта, без опыта в стартапах, который занимался только дашбордами и немного ML?

Вы нанимаете удалённо со всего мира.

New York London Madrid
Карьерный совет

Не показывайте, что вы делали в прошлом. Покажите, что вы можете сделать для них. Желательно - через рекомендацию напрямую к нанимающему менеджеру.

Вопросы для повторения

  1. Важно ли ML для дата-сайентистов?
  2. Нужно ли знать ML, чтобы получить работу дата-сайентиста?
  3. Что самое важное знать дата-сайентисту?
  4. Какой существует стандартный фреймворк/процесс для добычи данных?

Вопрос аудитории

Что самое важное
в IT?

Подумайте минуту →

Ответ

ДАННЫЕ

Не код. Не алгоритмы. Не серверы.

Что такое данные?

Любая зафиксированная информация: транзакции, клики, сенсоры, тексты, изображения, голос.

Почему это важно?

Данные - топливо для ML. Без них модель не обучится, продукт не поймёт пользователя.

Главный принцип

Garbage in - garbage out. Качество данных определяет качество всего, что построено сверху.

На практике

Где это работает

Чаще всего это тихие системы внутри компаний, а не лаборатории с роботами.

Финансы и риски
Кредитный скоринг Антифрод Кредитные риски Стратегия collection
Маркетинг и продукт
Прогноз оттока Сегментация клиентов Next-best-offer Рекомендательные системы Оптимизация цен
Операции и AI
Прогноз спроса NLP по документам Граф фрод-сети

Фреймворк

CRISP-DM

CRoss-Industry Standard Process for Data Mining

CRISP-DM cycle

Понимание бизнеса + данных

То, что отличает хорошего дата-сайентиста от великого.

Развёртывание

Единственное, что реально важно в прикладном ML - доставленный результат.

Шаг 1

Понимание данных

Три последовательных шага

1

Сбор данных

Собрать данные - или понять, как они были собраны

2

Качество данных

Выявить проблемы с качеством до анализа

3

Анализ (EDA)

Найти подгруппы и сформировать гипотезы

WWII bullet holes

Эффект выжившего · WWII

Какие части усилить?

Самолёты, вернувшиеся домой, имели пулевые пробоины на крыльях и фюзеляже.

Подумайте минуту, прежде чем смотреть ответ →

WWII bullet holes

Эффект выжившего · WWII

Какие части усилить?

Первоочевидный ответ

Усилить области с пробоинами - там, где попадания.

WWII bullet holes

Эффект выжившего · WWII

Какие части усилить?

Первоочевидный ответ

Усилить области с пробоинами.

Правильный ответ

Усилить там, где пробоин нет - двигатели и кабину. Самолёты с попаданиями туда просто не вернулись.

Эффект выжившего · WWI

Каски и травмы головы

WWI soldiers
До

Фуражки

Британские солдаты носили мягкие фуражки. Зафиксированных травм головы - мало.

После

Каски

Перешли на стальные каски - число зарегистрированных травм головы возросло.

Неочевидный вывод

Каски работают. Солдаты стали выживать после ранений, которые раньше были смертельными - поэтому их стали регистрировать. Данные без контекста вводят в заблуждение.

Что отличает

Модель построит каждый.
Заметить, где она ошибается, - сложнее.

/01

Контекст данных

Откуда взялись данные, кто и как их собирал, что в них могло быть упущено.

/02

Здоровый скепсис

Кто попал в выборку, а кто нет. Что мы видим - и чего не видим.

/03

Перевод на язык бизнеса

Объяснить результат тому, кто не работает с моделями, без потери смысла.

Повторение статистики

Выборка vs Генеральная совокупность

Sample · Выборка

То, что мы видим

Наш датасет. На нём мы обучаем модель.

Population · Совокупность

То, чего мы не видим

Реальный мир, на котором модель должна работать.

Ключевой вопрос

Действительно ли наша выборка репрезентативна?

Сбор данных

За пределами CSV и баз

Публичные порталы открытых данных - полноценный источник для ML

Open Data Portal Uzbekistan

data.egov.uz - 10 424 датасета: Территория, Экономика, Здравоохранение, Образование, Культура, Бизнес, Недвижимость, ЦУР.

Сбор данных

API

Application Programming Interface

Получать данные

Помимо CSV и SQL - научитесь работать с API напрямую

{ }

JSON

Поймите формат, в котором приходят данные

py

Python dict

Структура данных, на которой строится работа с JSON

Data quality

Качество данных · Часть 1

Когда данных нет - или они есть, но без смысла

Неполные данные (null)

Необязательные поля, изменение схемы, сломанный датчик. Иногда null несёт смысл - «бесконечность», «не знаю».

Полные данные без смысла

Строковые «unknown», «None», «null», нули и предопределённые константы без контекста.

Качество данных · Часть 2

Ещё четыре типа проблем

⚠️

Некорректные данные

Значения вне допустимого диапазона - например, возраст < 18 в банковских данных.

📐

Разные форматы

Даты в разном написании, валюты, температура в C / F / K.

📈

Выбросы

Это баг данных - или особенность? Один из главных вопросов EDA.

🔁

Дубликаты

Какая комбинация столбцов должна быть уникальной для строки?

Pro tip

В BI всегда добавляйте проверки на допустимые значения, not-null и уникальность.

Реальная работа

На что уходит время дата-сайентиста

Большая часть - это не моделирование. Это то, что в курсах часто пропускают.

Постановка задачи и понимание бизнеса
50%
Feature engineering и качество данных
40%
Само моделирование
10%

Модель - лёгкая часть. Понять вопрос - вот это работа.

Анализ данных

Exploratory Data Analysis

Асимметрия · описательная статистика · распределения

Левостороннее
Среднее < медиана < мода
Нормальное
Среднее = медиана = мода
Правостороннее
Мода < медиана < среднее
Мода
Медиана
Среднее

Цель ML - не строить модели.
А помогать принимать решения лучше - быстрее и с меньшим числом догадок.

Questions?

UZCARD Academy
1 / 20