ChatPaper.aiChatPaper

RedOne 2.0 : Repenser la post-formation des LLM spécialisés dans les services de réseautage social

RedOne 2.0: Rethinking Domain-specific LLM Post-Training in Social Networking Services

November 10, 2025
papers.authors: Fei Zhao, Chonggang Lu, Haofu Qian, Fangcheng Shi, Zijie Meng, Jianzhao Huang, Xu Tang, Zheyong Xie, Zheyu Ye, Zhe Xu, Yao Hu, Shaosheng Cao
cs.AI

papers.abstract

En tant que médium clé pour l'interaction humaine et l'échange d'informations, les services de réseaux sociaux (SNS) présentent des défis uniques pour les grands modèles de langage (LLM) : des charges de travail hétérogènes, des normes et un argot en évolution rapide, ainsi que des corpus multilingues et culturellement diversifiés induisant un décalage de distribution marqué. Le fine-tuning supervisé (SFT) peut spécialiser les modèles mais déclenche souvent un effet de « balancier » entre les gains en distribution interne et la robustesse hors distribution, particulièrement pour les modèles plus petits. Pour relever ces défis, nous présentons RedOne 2.0, un LLM orienté SNS entraîné avec un paradigme post-entraînement progressif et priorisé par apprentissage par renforcement (RL) conçu pour une adaptation rapide et stable. Le pipeline consiste en trois étapes : (1) un Apprentissage Exploratoire sur des corpus SNS triés pour établir un alignement initial et identifier les faiblesses systématiques ; (2) un Fine-Tuning Ciblé qui applique sélectivement le SFT pour combler les lacunes diagnostiquées tout en mélangeant une petite fraction de données générales pour atténuer l'oubli ; et (3) un Apprentissage de Raffinement qui réapplique le RL avec des signaux centrés sur les SNS pour consolider les améliorations et harmoniser les compromis entre les tâches. Sur diverses tâches couvrant trois catégories, notre modèle à l'échelle 4B offre une amélioration moyenne d'environ 2,41 points par rapport au baseline sous-optimal de 7B. De plus, RedOne 2.0 réalise une amélioration moyenne des performances d'environ 8,74 points par rapport au modèle de base avec moins de la moitié des données requises par la méthode centrée sur le SFT RedOne, démontrant une efficacité et une stabilité des données supérieures à des échelles compactes. Globalement, RedOne 2.0 établit un baseline compétitif et rentable pour les LLM spécifiques à un domaine dans le scénario des SNS, faisant progresser les capacités sans sacrifier la robustesse.
English
As a key medium for human interaction and information exchange, social networking services (SNS) pose unique challenges for large language models (LLMs): heterogeneous workloads, fast-shifting norms and slang, and multilingual, culturally diverse corpora that induce sharp distribution shift. Supervised fine-tuning (SFT) can specialize models but often triggers a ``seesaw'' between in-distribution gains and out-of-distribution robustness, especially for smaller models. To address these challenges, we introduce RedOne 2.0, an SNS-oriented LLM trained with a progressive, RL-prioritized post-training paradigm designed for rapid and stable adaptation. The pipeline consist in three stages: (1) Exploratory Learning on curated SNS corpora to establish initial alignment and identify systematic weaknesses; (2) Targeted Fine-Tuning that selectively applies SFT to the diagnosed gaps while mixing a small fraction of general data to mitigate forgetting; and (3) Refinement Learning that re-applies RL with SNS-centric signals to consolidate improvements and harmonize trade-offs across tasks. Across various tasks spanning three categories, our 4B scale model delivers an average improvements about 2.41 over the 7B sub-optimal baseline. Additionally, RedOne 2.0 achieves average performance lift about 8.74 from the base model with less than half the data required by SFT-centric method RedOne, evidencing superior data efficiency and stability at compact scales. Overall, RedOne 2.0 establishes a competitive, cost-effective baseline for domain-specific LLMs in SNS scenario, advancing capability without sacrificing robustness.
PDF182December 2, 2025