CharacterFlywheel: Scalabilità del Miglioramento Iterativo di LLM Coinvolgenti e Guidabili in Produzione

Abstract

Questo rapporto presenta CharacterFlywheel, un processo iterativo a volano per il miglioramento dei grandi modelli linguistici (LLM) nelle applicazioni di chat sociale in produzione su Instagram, WhatsApp e Messenger. Partendo da LLaMA 3.1, abbiamo affinato i modelli attraverso 15 generazioni utilizzando dati provenienti dal traffico reale degli utenti, sia interno che esterno. Tramite deployment continui da luglio 2024 ad aprile 2025, abbiamo condotto test A/B controllati della durata di 7 giorni che hanno mostrato miglioramenti costanti nell'engagement: 7 degli 8 nuovi modelli distribuiti hanno dimostrato un incremento positivo rispetto alla baseline, con i modelli più performanti che hanno raggiunto fino all'8,8% di miglioramento nell'ampiezza dell'engagement e al 19,4% nella sua profondità. Abbiamo anche osservato guadagni sostanziali nella guidabilità, con l'aderenza alle istruzioni aumentata dal 59,2% all'84,8% e le violazioni delle istruzioni ridotte dal 26,6% al 5,8%. Descriviamo nel dettaglio il processo CharacterFlywheel che integra la cura dei dati, la modellazione delle reward per stimare e interpolare il panorama delle metriche di engagement, il fine-tuning supervisionato (SFT), l'apprendimento per rinforzo (RL) e le valutazioni sia offline che online per garantire progressi affidabili a ogni fase di ottimizzazione. Discutiamo inoltre i nostri metodi per la prevenzione dell'overfitting e per gestire le dinamiche di produzione su larga scala. Questi contributi fanno avanzare il rigore scientifico e la comprensione degli LLM nelle applicazioni sociali che servono milioni di utenti.

English

This report presents CharacterFlywheel, an iterative flywheel process for improving large language models (LLMs) in production social chat applications across Instagram, WhatsApp, and Messenger. Starting from LLaMA 3.1, we refined models across 15 generations using data from both internal and external real-user traffic. Through continuous deployments from July 2024 to April 2025, we conducted controlled 7-day A/B tests showing consistent engagement improvements: 7 of 8 newly deployed models demonstrated positive lift over the baseline, with the strongest performers achieving up to 8.8% improvement in engagement breadth and 19.4% in engagement depth. We also observed substantial gains in steerability, with instruction following increasing from 59.2% to 84.8% and instruction violations decreasing from 26.6% to 5.8%. We detail the CharacterFlywheel process which integrates data curation, reward modeling to estimate and interpolate the landscape of engagement metrics, supervised fine-tuning (SFT), reinforcement learning (RL), and both offline and online evaluation to ensure reliable progress at each optimization step. We also discuss our methods for overfitting prevention and navigating production dynamics at scale. These contributions advance the scientific rigor and understanding of LLMs in social applications serving millions of users.

CharacterFlywheel: Scalabilità del Miglioramento Iterativo di LLM Coinvolgenti e Guidabili in Produzione

CharacterFlywheel: Scaling Iterative Improvement of Engaging and Steerable LLMs in Production

Abstract

Support