캐릭터플라이휠: 프로덕션 환경에서 매력적이고 방향 조정 가능한 LLM의 반복적 개선 확장
CharacterFlywheel: Scaling Iterative Improvement of Engaging and Steerable LLMs in Production
March 2, 2026
저자: Yixin Nie, Lin Guan, Zhongyao Ma, Anchit Gupta, Yipin Zhou, Xiao Li, Zhengping Zhou, Raymond Zeng, Gelin Zhou, Shigan Chu, Ajay Thampi, Wancen Mu, Nathan Shuster, Ketong Wang, Lin Chen, Jason Brewer, Derek Hao Hu, Alexander McCauley, Jason Weston, Sem Park, Na Zhang, Kevin Tang
cs.AI
초록
본 보고서는 Instagram, WhatsApp, Messenger 등 실제 운영 중인 소셜 채팅 애플리케이션에서 대규모 언어 모델(LLM)을 개선하기 위한 반복적 플라이휠 프로세스인 CharacterFlywheel을 소개한다. LLaMA 3.1을 시작으로 내부 및 외부 실제 사용자 트래픽 데이터를 활용하여 15개 세대에 걸쳐 모델을 정제했다. 2024년 7월부터 2025년 4월까지 지속적인 배포를 통해 진행된 7일 간의 통제된 A/B 테스트 결과, 꾸준한 참여도 개선이 확인되었다: 새로 배포된 8개 모델 중 7개가 기준 모델 대비 긍정적인 향상을 보였으며, 가장 성능이 우수한 모델은 참여 폭(engagement breadth) 최대 8.8%, 참여 깊이(engagement depth) 19.4%의 개선을 달성했다. 또한 조종 가능성(steerability)에서도 상당한 향상을 관찰했는데, 지시 따르기(instruction following)는 59.2%에서 84.8%로 증가했고 지시 위반(instruction violations)은 26.6%에서 5.8%로 감소했다. 본고에서는 데이터 큐레이션, 참여도 지표의 지형을 추정 및 보간하는 보상 모델링, 지도 미세 조정(SFT), 강화 학습(RL), 그리고 각 최적화 단계에서 신뢰할 수 있는 진전을 보장하기 위한 오프라인 및 온라인 평가를 통합하는 CharacterFlywheel 프로세스를 상세히 설명한다. 또한 대규모 프로덕션 환경의 동역학을 탐색하고 과적합을 방지하기 위한 방법론에 대해서도 논의한다. 이러한 기여는 수백만 사용자를 대상으로 하는 소셜 애플리케이션에서 LLM을 과학적으로 엄밀하게 이해하고 발전시키는 데 기여한다.
English
This report presents CharacterFlywheel, an iterative flywheel process for improving large language models (LLMs) in production social chat applications across Instagram, WhatsApp, and Messenger. Starting from LLaMA 3.1, we refined models across 15 generations using data from both internal and external real-user traffic. Through continuous deployments from July 2024 to April 2025, we conducted controlled 7-day A/B tests showing consistent engagement improvements: 7 of 8 newly deployed models demonstrated positive lift over the baseline, with the strongest performers achieving up to 8.8% improvement in engagement breadth and 19.4% in engagement depth. We also observed substantial gains in steerability, with instruction following increasing from 59.2% to 84.8% and instruction violations decreasing from 26.6% to 5.8%. We detail the CharacterFlywheel process which integrates data curation, reward modeling to estimate and interpolate the landscape of engagement metrics, supervised fine-tuning (SFT), reinforcement learning (RL), and both offline and online evaluation to ensure reliable progress at each optimization step. We also discuss our methods for overfitting prevention and navigating production dynamics at scale. These contributions advance the scientific rigor and understanding of LLMs in social applications serving millions of users.