CharacterFlywheel: Масштабирование итеративного улучшения вовлекающих и управляемых больших языковых моделей в продакшене

Аннотация

В данном отчете представлена CharacterFlywheel — итеративный процесс по принципу маховика для улучшения больших языковых моделей (LLM) в промышленных социальных чат-приложениях Instagram, WhatsApp и Messenger. Отталкиваясь от модели LLaMA 3.1, мы совершенствовали модели на протяжении 15 поколений, используя данные как внутреннего, так и внешнего трафика реальных пользователей. В ходе непрерывных развертываний с июля 2024 года по апрель 2025 года мы проводили контролируемые 7-дневные A/B-тесты, которые показали стабильное улучшение вовлеченности: 7 из 8 вновь развернутых моделей продемонстрировали положительный прирост по сравнению с базовым уровнем, при этом наиболее эффективные модели достигли улучшения широты вовлеченности до 8,8% и глубины вовлеченности до 19,4%. Мы также наблюдали существенный прогресс в управляемости: следование инструкциям увеличилось с 59,2% до 84,8%, а нарушения инструкций снизились с 26,6% до 5,8%. Мы подробно описываем процесс CharacterFlywheel, который интегрирует курацию данных, моделирование вознаграждения для оценки и интерполяции ландшафта метрик вовлеченности, контролируемое тонкое настройка (SFT), обучение с подкреплением (RL), а также офлайн- и онлайн-оценку для обеспечения надежного прогресса на каждом шаге оптимизации. Также обсуждаются наши методы предотвращения переобучения и управления производственной динамикой в масштабе. Данные достижения способствуют повышению научной строгости и углублению понимания LLM в социальных приложениях, обслуживающих миллионы пользователей.

English

This report presents CharacterFlywheel, an iterative flywheel process for improving large language models (LLMs) in production social chat applications across Instagram, WhatsApp, and Messenger. Starting from LLaMA 3.1, we refined models across 15 generations using data from both internal and external real-user traffic. Through continuous deployments from July 2024 to April 2025, we conducted controlled 7-day A/B tests showing consistent engagement improvements: 7 of 8 newly deployed models demonstrated positive lift over the baseline, with the strongest performers achieving up to 8.8% improvement in engagement breadth and 19.4% in engagement depth. We also observed substantial gains in steerability, with instruction following increasing from 59.2% to 84.8% and instruction violations decreasing from 26.6% to 5.8%. We detail the CharacterFlywheel process which integrates data curation, reward modeling to estimate and interpolate the landscape of engagement metrics, supervised fine-tuning (SFT), reinforcement learning (RL), and both offline and online evaluation to ensure reliable progress at each optimization step. We also discuss our methods for overfitting prevention and navigating production dynamics at scale. These contributions advance the scientific rigor and understanding of LLMs in social applications serving millions of users.

CharacterFlywheel: Масштабирование итеративного улучшения вовлекающих и управляемых больших языковых моделей в продакшене

CharacterFlywheel: Scaling Iterative Improvement of Engaging and Steerable LLMs in Production

Аннотация

Support