CharacterFlywheel: Escalando la Mejora Iterativa de LLMs Atractivos y Dirigibles en Producción

Resumen

Este informe presenta CharacterFlywheel, un proceso iterativo de volante de inercia para mejorar los modelos de lenguaje grande (LLM) en aplicaciones de chat social en producción en Instagram, WhatsApp y Messenger. Partiendo de LLaMA 3.1, refinamos los modelos a lo largo de 15 generaciones utilizando datos del tráfico real de usuarios, tanto interno como externo. Mediante implementaciones continuas desde julio de 2024 hasta abril de 2025, realizamos pruebas A/B controladas de 7 días que mostraron mejoras consistentes en la participación: 7 de cada 8 modelos recién implementados demostraron un incremento positivo respecto a la línea base, con los modelos de mejor rendimiento logrando hasta un 8.8% de mejora en la amplitud de la participación y un 19.4% en la profundidad de la participación. También observamos ganancias sustanciales en la capacidad de direccionamiento, con el seguimiento de instrucciones aumentando del 59.2% al 84.8% y las violaciones de instrucciones disminuyendo del 26.6% al 5.8%. Detallamos el proceso CharacterFlywheel, que integra la curación de datos, el modelado de recompensas para estimar e interpolar el panorama de las métricas de participación, el ajuste fino supervisado (SFT), el aprendizaje por refuerzo (RL), y evaluaciones tanto offline como online para garantizar un progreso confiable en cada paso de optimización. También discutimos nuestros métodos para la prevención de sobreajuste y la navegación de las dinámicas de producción a gran escala. Estas contribuciones avanzan el rigor científico y la comprensión de los LLM en aplicaciones sociales que sirven a millones de usuarios.

English

This report presents CharacterFlywheel, an iterative flywheel process for improving large language models (LLMs) in production social chat applications across Instagram, WhatsApp, and Messenger. Starting from LLaMA 3.1, we refined models across 15 generations using data from both internal and external real-user traffic. Through continuous deployments from July 2024 to April 2025, we conducted controlled 7-day A/B tests showing consistent engagement improvements: 7 of 8 newly deployed models demonstrated positive lift over the baseline, with the strongest performers achieving up to 8.8% improvement in engagement breadth and 19.4% in engagement depth. We also observed substantial gains in steerability, with instruction following increasing from 59.2% to 84.8% and instruction violations decreasing from 26.6% to 5.8%. We detail the CharacterFlywheel process which integrates data curation, reward modeling to estimate and interpolate the landscape of engagement metrics, supervised fine-tuning (SFT), reinforcement learning (RL), and both offline and online evaluation to ensure reliable progress at each optimization step. We also discuss our methods for overfitting prevention and navigating production dynamics at scale. These contributions advance the scientific rigor and understanding of LLMs in social applications serving millions of users.

CharacterFlywheel: Escalando la Mejora Iterativa de LLMs Atractivos y Dirigibles en Producción

CharacterFlywheel: Scaling Iterative Improvement of Engaging and Steerable LLMs in Production

Resumen

Support