ChatPaper.aiChatPaper

RedOne 2.0: ソーシャルネットワーキングサービスにおけるドメイン特化LLMのポストトレーニングの再考

RedOne 2.0: Rethinking Domain-specific LLM Post-Training in Social Networking Services

November 10, 2025
著者: Fei Zhao, Chonggang Lu, Haofu Qian, Fangcheng Shi, Zijie Meng, Jianzhao Huang, Xu Tang, Zheyong Xie, Zheyu Ye, Zhe Xu, Yao Hu, Shaosheng Cao
cs.AI

要旨

人間の相互作用と情報交換の主要な媒体として、ソーシャルネットワーキングサービス(SNS)は大規模言語モデル(LLM)に特有の課題を提起する。すなわち、不均一なワークロード、急速に変化する規範やスラング、そして急峻な分布シフトを引き起こす多言語・多文化コーパスである。教師ありファインチューニング(SFT)はモデルを特化させうるが、特に小規模モデルにおいて、分布内での性能向上と分布外ロバスト性の間で「シーソー効果」を引き起こしがちである。これらの課題に対処するため、我々は迅速かつ安定した適応を目的として設計された、段階的なRL優先ポストトレーニング手法で訓練されたSNS指向LLM「RedOne 2.0」を提案する。このパイプラインは3段階から構成される:(1)精選されたSNSコーパスによる探索的学習で初期の適合を確立し、体系的な弱点を特定;(2)診断されたギャップに対してSFTを選択的に適用し、一般データの少量を混合して忘却を緩和するターゲット型ファインチューニング;(3)SNS中心の信号を用いてRLを再適用し、改善を定着させタスク間のトレードオフを調和させる洗練学習。3カテゴリにわたる様々なタスクにおいて、当社の40億パラメータ規模モデルは70億パラメータの準最適ベンチマークに対し平均2.41の改善を達成した。さらにRedOne 2.0は、SFT中心手法のRedOneが必要とするデータ量の半分未満で、ベースモデルから平均8.74の性能向上を実現し、コンパクト規模における優れたデータ効率と安定性を立証している。全体として、RedOne 2.0はSNSシナリオにおけるドメイン特化LLMの競争力があり費用効果の高いベンチマークを確立し、ロバスト性を犠牲にすることなく性能を推進するものである。
English
As a key medium for human interaction and information exchange, social networking services (SNS) pose unique challenges for large language models (LLMs): heterogeneous workloads, fast-shifting norms and slang, and multilingual, culturally diverse corpora that induce sharp distribution shift. Supervised fine-tuning (SFT) can specialize models but often triggers a ``seesaw'' between in-distribution gains and out-of-distribution robustness, especially for smaller models. To address these challenges, we introduce RedOne 2.0, an SNS-oriented LLM trained with a progressive, RL-prioritized post-training paradigm designed for rapid and stable adaptation. The pipeline consist in three stages: (1) Exploratory Learning on curated SNS corpora to establish initial alignment and identify systematic weaknesses; (2) Targeted Fine-Tuning that selectively applies SFT to the diagnosed gaps while mixing a small fraction of general data to mitigate forgetting; and (3) Refinement Learning that re-applies RL with SNS-centric signals to consolidate improvements and harmonize trade-offs across tasks. Across various tasks spanning three categories, our 4B scale model delivers an average improvements about 2.41 over the 7B sub-optimal baseline. Additionally, RedOne 2.0 achieves average performance lift about 8.74 from the base model with less than half the data required by SFT-centric method RedOne, evidencing superior data efficiency and stability at compact scales. Overall, RedOne 2.0 establishes a competitive, cost-effective baseline for domain-specific LLMs in SNS scenario, advancing capability without sacrificing robustness.
PDF182December 2, 2025