CharacterFlywheel: 魅力的で制御可能な大規模言語モデルの反復的改善をプロダクション環境でスケーリングする
CharacterFlywheel: Scaling Iterative Improvement of Engaging and Steerable LLMs in Production
March 2, 2026
著者: Yixin Nie, Lin Guan, Zhongyao Ma, Anchit Gupta, Yipin Zhou, Xiao Li, Zhengping Zhou, Raymond Zeng, Gelin Zhou, Shigan Chu, Ajay Thampi, Wancen Mu, Nathan Shuster, Ketong Wang, Lin Chen, Jason Brewer, Derek Hao Hu, Alexander McCauley, Jason Weston, Sem Park, Na Zhang, Kevin Tang
cs.AI
要旨
本報告では、Instagram、WhatsApp、Messengerといった生産環境のソーシャルチャットアプリケーションにおいて、大規模言語モデルの性能を改善するための反復的フライホイールプロセス「CharacterFlywheel」を提案する。LLaMA 3.1を出発点とし、社内外の実ユーザートラフィックから得たデータを用いて、15世代にわたるモデルの改良を実施した。2024年7月から2025年4月にかけて継続的にデプロイを行い、管理された7日間のA/Bテストを実施した結果、一貫したエンゲージメントの向上が確認された:デプロイされた8つの新モデルのうち7つがベースラインを上回る改善を示し、最も性能の高いモデルではエンゲージメントの広がりで最大8.8%、エンゲージメントの深さで最大19.4%の改善を達成した。また、指示追従性能が59.2%から84.8%に向上し、指示違反が26.6%から5.8%に減少するなど、制御性においても大幅な向上が認められた。本稿では、データキュレーション、エンゲージメント指標の空間を推定・補間する報酬モデリング、教師ありファインチューニング、強化学習、そして各最適化ステップでの信頼性のある進捗を保証するためのオフラインおよびオンライン評価を統合するCharacterFlywheelプロセスについて詳述する。さらに、大規模な生産環境における動向への対応と過学習防止のための手法についても論じる。これらの貢献は、数百万人のユーザーにサービスを提供するソーシャルアプリケーションにおけるLLMの科学的な厳密性と理解を前進させるものである。
English
This report presents CharacterFlywheel, an iterative flywheel process for improving large language models (LLMs) in production social chat applications across Instagram, WhatsApp, and Messenger. Starting from LLaMA 3.1, we refined models across 15 generations using data from both internal and external real-user traffic. Through continuous deployments from July 2024 to April 2025, we conducted controlled 7-day A/B tests showing consistent engagement improvements: 7 of 8 newly deployed models demonstrated positive lift over the baseline, with the strongest performers achieving up to 8.8% improvement in engagement breadth and 19.4% in engagement depth. We also observed substantial gains in steerability, with instruction following increasing from 59.2% to 84.8% and instruction violations decreasing from 26.6% to 5.8%. We detail the CharacterFlywheel process which integrates data curation, reward modeling to estimate and interpolate the landscape of engagement metrics, supervised fine-tuning (SFT), reinforcement learning (RL), and both offline and online evaluation to ensure reliable progress at each optimization step. We also discuss our methods for overfitting prevention and navigating production dynamics at scale. These contributions advance the scientific rigor and understanding of LLMs in social applications serving millions of users.