CharacterFlywheel: Schaalbaar Iteratief Verbeteren van Boeiende en Stuurbare LLM's in Productie

Samenvatting

Dit rapport presenteert CharacterFlywheel, een iteratief vliegwielproces voor het verbeteren van grote taalmodellen (LLM's) in productie-omgevingen voor sociale chattoepassingen op Instagram, WhatsApp en Messenger. Uitgaande van LLaMA 3.1, verfijnden we modellen over 15 generaties heen met gegevens afkomstig van zowel intern als extern reëel gebruikersverkeer. Via continue implementaties van juli 2024 tot april 2025 voerden we gecontroleerde A/B-tests van 7 dagen uit, die consistente verbeteringen in betrokkenheid toonden: 7 van de 8 nieuw geïmplementeerde modellen leverden een positieve stijging op ten opzichte van de basislijn, waarbij de beste presteerders verbeteringen bereikten van tot 8,8% in de breedte van betrokkenheid en 19,4% in de diepte van betrokkenheid. We observeerden ook aanzienlijke vooruitgang in stuurbaarheid: het opvolgen van instructies steeg van 59,2% naar 84,8% en het overtreden van instructies daalde van 26,6% naar 5,8%. We beschrijven het CharacterFlywheel-proces in detail, waarbij datacuratie, beloningsmodellering om het landschap van betrokkenheidsstatistieken te schatten en te interpoleren, supervised fine-tuning (SFT), reinforcement learning (RL), en zowel offline als online evaluatie worden geïntegreerd om betrouwbare vooruitgang bij elke optimalisatiestap te waarborgen. We bespreken tevens onze methoden voor het voorkomen van overfitting en het navigeren door productiedynamiek op grote schaal. Deze bijdragen bevorderen de wetenschappelijke nauwkeurigheid en het begrip van LLM's in sociale toepassingen die miljoenen gebruikers bedienen.

English

This report presents CharacterFlywheel, an iterative flywheel process for improving large language models (LLMs) in production social chat applications across Instagram, WhatsApp, and Messenger. Starting from LLaMA 3.1, we refined models across 15 generations using data from both internal and external real-user traffic. Through continuous deployments from July 2024 to April 2025, we conducted controlled 7-day A/B tests showing consistent engagement improvements: 7 of 8 newly deployed models demonstrated positive lift over the baseline, with the strongest performers achieving up to 8.8% improvement in engagement breadth and 19.4% in engagement depth. We also observed substantial gains in steerability, with instruction following increasing from 59.2% to 84.8% and instruction violations decreasing from 26.6% to 5.8%. We detail the CharacterFlywheel process which integrates data curation, reward modeling to estimate and interpolate the landscape of engagement metrics, supervised fine-tuning (SFT), reinforcement learning (RL), and both offline and online evaluation to ensure reliable progress at each optimization step. We also discuss our methods for overfitting prevention and navigating production dynamics at scale. These contributions advance the scientific rigor and understanding of LLMs in social applications serving millions of users.

CharacterFlywheel: Schaalbaar Iteratief Verbeteren van Boeiende en Stuurbare LLM's in Productie

CharacterFlywheel: Scaling Iterative Improvement of Engaging and Steerable LLMs in Production

Samenvatting

Support