Кредитный стартап без ML-скоринга — это как платёжный сервис без API. Технически работает, но конкурировать с рынком не получится. Ручной андеррайтинг медленный, субъективный и не масштабируется. ML-скоринг для кредитного стартапа — это не будущее, это уже обязательный минимум для входа на рынок.
Сталкивался с командами, которые откладывали внедрение скоринга «на потом». Потом наступало, когда уже было 5 000 заявок в день и ручная обработка занимала 3 дня. В этот момент переделывать архитектуру MVP — дорого и болезненно. Лучше заложить ML-скоринг сразу.
Что такое ML-скоринг и зачем он FinTech стартапу
ML-скоринг — это система автоматической оценки кредитоспособности заёмщика на основе машинного обучения. В отличие от правилового скоринга (если возраст > 25 и доход > 50к → одобрить), ML-модель учится на исторических данных и выявляет неочевидные паттерны.
Зачем это FinTech стартапу:
- Скорость — решение за секунды, не за дни
- Точность — меньше default rate при том же approval rate
- Масштаб — 100 или 100 000 заявок в день с одинаковыми затратами
- Персонализация — модель учитывает специфику вашей аудитории, а не среднерыночную
- Регуляторное давление — ЦБ всё жёстче требует обоснованных решений, ML даёт explainability
Для EdTech-стартапов, предлагающих образовательные кредиты или рассрочку, логика та же: нужно быстро понять, вернёт ли студент деньги. Банки здесь медленные и консервативные — и именно в этом ваше окно возможностей.
Как работает кредитный скоринг на ML (технически просто)
Не буду грузить математикой. Объясню схему, которую мы используем в проектах IT2BE.
Feature engineering — это подготовка признаков (данных) для обучения модели. Чем качественнее признаки, тем точнее модель. Типичные признаки для кредитного скоринга:
- Социодемография: возраст, регион, образование
- Финансовое поведение: транзакционная история, средний чек, регулярность платежей
- Поведение в приложении: время сессий, частота входов, паттерны заполнения анкеты
- Внешние данные: НБКИ/ОКБ/Equifax (бюро кредитных историй), телефонные данные
Алгоритмы: для большинства FinTech MVP мы рекомендуем начинать с градиентного бустинга (XGBoost, LightGBM). Это не нейросеть, но точность сопоставимая, а интерпретируемость выше — важно для ЦБ и риск-менеджмента.
- Логистическая регрессия — просто, интерпретируемо, хорошо работает как baseline
- Gradient Boosting (XGBoost/LightGBM) — основной рабочий инструмент, высокая точность
- Нейросети (DNN) — нужны при больших объёмах данных (>100k размеченных примеров), сложнее объяснить регулятору
Метрики качества: не ROC-AUC единым. Для кредитного скоринга критичны:
- Gini-коэффициент (= 2*AUC - 1): нормальная модель — 0.4+, хорошая — 0.6+
- KS-статистика: разделимость хороших и плохих заёмщиков
- PSI (Population Stability Index): мониторинг деградации модели со временем
- Precision/Recall на плохих: сколько дефолтов вы пропускаете
Данные для обучения: где взять, когда нет истории
Это главный вопрос стартапа. У вас нет кредитной истории — как обучить модель? Это «холодный старт», и у него есть рабочие решения.
Вариант 1: Покупка размеченных данных. НБКИ и другие БКИ продают синтетические датасеты или дают возможность обогащения данных. Цена — от 200к ₽ за доступ. Подходит для первой модели.
Вариант 2: Альтернативные данные — это то, что отличает современный FinTech от банков:
- Телефонные данные (с согласия): звонки, SMS, регулярность пополнения
- Транзакционная история из Open Banking (API банков)
- Поведение в приложении: скорость заполнения анкеты, корректность данных с первой попытки
- Геолокация: место работы vs место жизни, стабильность
- Маркетплейс-история (для EdTech: Ozon, WB — паттерны покупок)
Вариант 3: Постепенное накопление. Первые 3-6 месяцев работаете с правиловым скорингом или низким порогом одобрения, накапливаете данные о дефолтах и успешных погашениях, потом обучаете модель на реальных данных.
Вариант 4: Transfer learning. Если у партнёра есть данные — договариваетесь о доступе в рамках data-sharing соглашения. Часто работает для EdTech: партнёр (вуз, работодатель) знает о студенте больше, чем НБКИ.
Стоимость разработки ML-скоринга в 2026 году
Честные цифры, которые мы видим на рынке и используем в IT2BE:
MVP ML-скоринга (базовый):
- Feature engineering на 30-50 признаках
- Модель XGBoost + валидация на тестовой выборке
- API-endpoint для интеграции в основной продукт
- Базовый мониторинг PSI/Gini
- Стоимость: 300–450к ₽, 6–8 недель
ML-скоринг с explainability (для регулятора):
- SHAP-values для объяснения каждого решения
- Отчёты для ЦБ в нужном формате
- A/B-тестирование версий модели
- Стоимость: +150–200к ₽ к базовому
Полный пакет с альтернативными данными:
- Интеграция с БКИ (НБКИ, ОКБ)
- Open Banking коннекторы
- Антифрод-слой
- MLOps пайплайн для переобучения
- Стоимость: 600–900к ₽, включается в базовый пакет IT2BE
В IT2BE ML-скоринг входит в MVP FinTech стартапа как стандартная функция при бюджете до 900к ₽. Отдельно докупать не нужно — он уже там.
Альтернативы: правиловой скоринг vs ML vs покупной
Выбор зависит от стадии и бюджета:
| Подход | Плюсы | Минусы | Когда выбирать |
|---|---|---|---|
| Правиловой скоринг | Быстро, дёшево, прозрачно | Ручной труд, низкая точность, не масштабируется | Pre-MVP, первые 100-500 заявок |
| ML-скоринг (собственный) | Высокая точность, адаптация под аудиторию, ownership | Нужны данные и время для обучения | MVP и рост, есть >1000 размеченных примеров |
| Покупной скоринг (БКИ, SaaS) | Быстрый старт, нет холодного старта | Дорого на масштабе, нет кастомизации, зависимость от вендора | Быстрый старт без данных, ограниченный рынок |
Оптимальный путь для большинства FinTech стартапов: старт с правиловым скорингом + покупной API на 3-4 месяца → накопление данных → переход на собственный ML-скоринг с ML-скорингом для кредитного стартапа как основой.
Мягкий итог: если вы строите кредитный продукт всерьёз, ML-скоринг для кредитного стартапа нужно закладывать в архитектуру с первого дня. Переделывать потом — в 2-3 раза дороже. Если хотите обсудить, как это выглядит конкретно в вашем случае — запишитесь на Zoom-колл с нашим ML-инженером.
Нужна ли лицензия ЦБ для кредитного скоринга?
Сама по себе модель скоринга лицензии не требует — это просто алгоритм. Лицензия ЦБ нужна для выдачи кредитов и займов (МФО, банковская лицензия). Если вы встраиваете скоринг в продукт партнёра-кредитора — лицензия не ваша проблема. Если выдаёте займы самостоятельно — нужна лицензия МФО (минимальный капитал 10 млн ₽, регистрация в реестре ЦБ).
Какой объём данных нужен для обучения ML-модели?
Минимальный порог для первой работающей модели — 2 000–5 000 размеченных примеров (с известным исходом: вернул/не вернул). Хорошая модель получается от 20 000+. До этого порога используйте правиловой скоринг или покупные данные БКИ. Альтернативные данные (поведение в приложении, телефонная история) могут снизить порог до 1 000 примеров при правильном feature engineering.
Чем ML-скоринг лучше FICO или Equifax?
FICO и Equifax — универсальные модели, обученные на широкой популяции. Ваша собственная ML-модель обучена на вашей аудитории — студентах, фрилансерах, молодых предпринимателях — и учитывает специфику вашего продукта. Для нишевых FinTech-стартапов собственная модель через 6-12 месяцев обычно точнее покупной на 15-25% по Gini. Плюс — вы не платите per-request покупному API.
Как долго обучается ML-модель для кредитного скоринга?
Само обучение модели — часы или дни (в зависимости от объёма данных). Но подготовка данных (feature engineering, очистка, разметка) занимает 60-70% всего времени. В нашем опыте полный цикл от сырых данных до production-ready модели — 6-8 недель. MLOps-пайплайн для регулярного переобучения добавляет ещё 2-3 недели.