CharacterFlywheel: Skalierbare iterative Verbesserung ansprechender und lenkbarer LLMs in der Produktion

Zusammenfassung

Dieser Bericht stellt CharacterFlywheel vor, einen iterativen Flywheel-Prozess zur Verbesserung großer Sprachmodelle (LLMs) in produktiven Social-Chat-Anwendungen auf Instagram, WhatsApp und Messenger. Ausgehend von LLaMA 3.1 verfeinerten wir Modelle über 15 Generationen hinweg mit Daten aus internem und externem Echtnutzerverkehr. Durch kontinuierliche Deployment-Schritte von Juli 2024 bis April 2025 führten wir kontrollierte 7-Tage-A/B-Tests durch, die konsistente Verbesserungen bei der Nutzerbindung zeigten: 7 von 8 neu eingesetzten Modellen erzielten eine positive Steigerung gegenüber der Basislinie, wobei die leistungsstärksten Modelle Verbesserungen von bis zu 8,8 % in der Breite der Nutzerbindung und 19,4 % in ihrer Tiefe erreichten. Wir verzeichneten auch erhebliche Fortschritte in der Steuerbarkeit: Die Befolgung von Anweisungen stieg von 59,2 % auf 84,8 % an, während Verstöße gegen Anweisungen von 26,6 % auf 5,8 % zurückgingen. Wir erläutern detailliert den CharacterFlywheel-Prozess, der Datenkuratierung, Reward-Modellierung zur Schätzung und Interpolation des Metriken-Spektrums der Nutzerbindung, überwachte Feinabstimmung (SFT), Reinforcement Learning (RL) sowie Offline- und Online-Evaluierung integriert, um zuverlässige Fortschritte in jedem Optimierungsschritt zu gewährleisten. Zudem diskutieren wir unsere Methoden zur Überanpassungsvermeidung und zur Bewältigung von Produktionsdynamiken im großen Maßstab. Diese Beiträge fördern die wissenschaftliche Strenge und das Verständnis von LLMs in sozialen Anwendungen, die Millionen von Nutzern dienen.

English

This report presents CharacterFlywheel, an iterative flywheel process for improving large language models (LLMs) in production social chat applications across Instagram, WhatsApp, and Messenger. Starting from LLaMA 3.1, we refined models across 15 generations using data from both internal and external real-user traffic. Through continuous deployments from July 2024 to April 2025, we conducted controlled 7-day A/B tests showing consistent engagement improvements: 7 of 8 newly deployed models demonstrated positive lift over the baseline, with the strongest performers achieving up to 8.8% improvement in engagement breadth and 19.4% in engagement depth. We also observed substantial gains in steerability, with instruction following increasing from 59.2% to 84.8% and instruction violations decreasing from 26.6% to 5.8%. We detail the CharacterFlywheel process which integrates data curation, reward modeling to estimate and interpolate the landscape of engagement metrics, supervised fine-tuning (SFT), reinforcement learning (RL), and both offline and online evaluation to ensure reliable progress at each optimization step. We also discuss our methods for overfitting prevention and navigating production dynamics at scale. These contributions advance the scientific rigor and understanding of LLMs in social applications serving millions of users.

CharacterFlywheel: Skalierbare iterative Verbesserung ansprechender und lenkbarer LLMs in der Produktion

CharacterFlywheel: Scaling Iterative Improvement of Engaging and Steerable LLMs in Production

Zusammenfassung

Support