RedOne 2.0: Ripensare il Post-Addestramento di LLM Settoriali nei Servizi di Social Networking
RedOne 2.0: Rethinking Domain-specific LLM Post-Training in Social Networking Services
November 10, 2025
Autori: Fei Zhao, Chonggang Lu, Haofu Qian, Fangcheng Shi, Zijie Meng, Jianzhao Huang, Xu Tang, Zheyong Xie, Zheyu Ye, Zhe Xu, Yao Hu, Shaosheng Cao
cs.AI
Abstract
In quanto mezzo chiave per l'interazione umana e lo scambio di informazioni, i servizi di social networking (SNS) pongono sfide uniche per i grandi modelli linguistici (LLM): carichi di lavoro eterogenei, norme e slang in rapida evoluzione, e corpora multilingue e culturalmente diversificati che inducono un forte spostamento di distribuzione. L'addestramento supervisionato (SFT) può specializzare i modelli ma spesso innesca un effetto "altalena" tra i guadagni in-distribuzione e la robustezza out-of-distribuzione, specialmente per i modelli più piccoli. Per affrontare queste sfide, presentiamo RedOne 2.0, un LLM orientato agli SNS addestrato con un paradigma di post-addestramento progressivo e prioritizzato per RL, progettato per un adattamento rapido e stabile. La pipeline consiste in tre fasi: (1) Apprendimento Esplorativo su corpora di SNS curati per stabilire un allineamento iniziale e identificare punti di debolezza sistemici; (2) Addestramento Mirato che applica selettivamente l'SFT alle lacune diagnosticate mescolando una piccola frazione di dati generali per mitigare la dimenticanza; e (3) Apprendimento di Raffinamento che riapplica la RL con segnali incentrati sugli SNS per consolidare i miglioramenti e armonizzare i compromessi tra i compiti. In varie attività che coprono tre categorie, il nostro modello da 4 miliardi di parametri fornisce un miglioramento medio di circa 2,41 punti rispetto al baseline subottimale da 7B. Inoltre, RedOne 2.0 ottiene un incremento prestazionale medio di circa 8,74 punti rispetto al modello base, utilizzando meno della metà dei dati richiesti dal metodo RedOne centrato sull'SFT, evidenziando una superiore efficienza dei dati e stabilità a scale compatte. Nel complesso, RedOne 2.0 stabilisce un baseline competitivo e conveniente per LLM specifici del dominio nello scenario degli SNS, avanzando le capacità senza sacrificare la robustezza.
English
As a key medium for human interaction and information exchange, social
networking services (SNS) pose unique challenges for large language models
(LLMs): heterogeneous workloads, fast-shifting norms and slang, and
multilingual, culturally diverse corpora that induce sharp distribution shift.
Supervised fine-tuning (SFT) can specialize models but often triggers a
``seesaw'' between in-distribution gains and out-of-distribution robustness,
especially for smaller models. To address these challenges, we introduce RedOne
2.0, an SNS-oriented LLM trained with a progressive, RL-prioritized
post-training paradigm designed for rapid and stable adaptation. The pipeline
consist in three stages: (1) Exploratory Learning on curated SNS corpora to
establish initial alignment and identify systematic weaknesses; (2) Targeted
Fine-Tuning that selectively applies SFT to the diagnosed gaps while mixing a
small fraction of general data to mitigate forgetting; and (3) Refinement
Learning that re-applies RL with SNS-centric signals to consolidate
improvements and harmonize trade-offs across tasks. Across various tasks
spanning three categories, our 4B scale model delivers an average improvements
about 2.41 over the 7B sub-optimal baseline. Additionally, RedOne 2.0 achieves
average performance lift about 8.74 from the base model with less than half the
data required by SFT-centric method RedOne, evidencing superior data efficiency
and stability at compact scales. Overall, RedOne 2.0 establishes a competitive,
cost-effective baseline for domain-specific LLMs in SNS scenario, advancing
capability without sacrificing robustness.