ML futures lab
Ансамбль из пяти моделей — AdaBoost, Gradient Boosting, Hist Gradient Boosting, Random Forest и логистическая регрессия — ежедневно обучается на истории MOEX и оценивает вероятность роста на следующий торговый день. Валидация walk-forward: каждая метрика посчитана только на данных, которых модель не видела при обучении.
Бинарная классификация: вырастет ли цена завтра. Целевая переменная и базовый признак — лог-доходность:
Признаки: доходности за 1–10 дней, отклонения от скользящих средних, волатильность, RSI, MACD, дневной размах и день недели.
Последовательно строит слабые деревья, увеличивая вес наблюдений, на которых ошибся предыдущий шаг. Вес m-го классификатора зависит от его взвешенной ошибки ε_m:
Каждое новое дерево приближает антиградиент функции потерь (log-loss) по текущему прогнозу — «исправляет» остатки ансамбля. η — learning rate (у нас 0.05):
Hist Gradient Boosting — та же идея, но признаки бинятся в гистограммы (256 корзин), что на порядок ускоряет обучение (аналог LightGBM).
Random Forest усредняет деревья на бутстрэп-выборках со случайным подмножеством признаков — снижает дисперсию. Логистическая регрессия — линейный бенчмарк:
Ансамблевый сигнал — среднее вероятностей пяти моделей. Walk-forward валидация: обучение на расширяющемся окне, прогноз строго вперёд, 5 фолдов.