ChatPaper.aiChatPaper

RedOne 2.0: Neubewertung domainspezifischen LLM-Post-Trainings in sozialen Netzwerkdiensten

RedOne 2.0: Rethinking Domain-specific LLM Post-Training in Social Networking Services

November 10, 2025
papers.authors: Fei Zhao, Chonggang Lu, Haofu Qian, Fangcheng Shi, Zijie Meng, Jianzhao Huang, Xu Tang, Zheyong Xie, Zheyu Ye, Zhe Xu, Yao Hu, Shaosheng Cao
cs.AI

papers.abstract

Als zentrale Medien für menschliche Interaktion und Informationsaustausch stellen soziale Netzwerkdienste (SNS) einzigartige Herausforderungen für große Sprachmodelle (LLMs) dar: heterogene Workloads, sich schnell verändernde Normen und Slang sowie mehrsprachige, kulturell diverse Korpora, die starke Distributionsverschiebungen verursachen. Überwachtes Feintuning (SFT) kann Modelle spezialisieren, löst jedoch häufig einen „Wippeffekt“ zwischen Verbesserungen innerhalb der Trainingsverteilung und Robustheit außerhalb dieser aus, insbesondere bei kleineren Modellen. Um diese Herausforderungen zu bewältigen, stellen wir RedOne 2.0 vor, ein auf SNS ausgerichtetes LLM, das mit einem progressiven, RL-priorisierten Nachtrainingsparadigma für schnelle und stabile Anpassung trainiert wurde. Die Pipeline besteht aus drei Stufen: (1) Exploratives Lernen an kuratierten SNS-Korpora, um eine anfängliche Ausrichtung zu etablieren und systematische Schwächen zu identifizieren; (2) Gezieltes Feintuning, das SFT selektiv auf die diagnostizierten Lücken anwendet, während ein geringer Anteil allgemeiner Daten beigemischt wird, um Vergessen entgegenzuwirken; und (3) Verfeinerndes Lernen, das RL erneut mit SNS-zentrierten Signalen anwendet, um Verbesserungen zu konsolidieren und Zielkonflikte zwischen Aufgaben auszugleichen. In verschiedenen Aufgaben über drei Kategorien hinweg erzielt unser Modell im 4B-Maßstab durchschnittliche Verbesserungen von etwa 2,41 Punkten gegenüber dem suboptimalen 7B-Baseline-Modell. Zusätzlich erreicht RedOne 2.0 einen durchschnittlichen Leistungszuwachs von etwa 8,74 Punkten gegenüber dem Basismodell mit weniger als der Hälfte der Daten, die die SFT-zentrierte Methode RedOne benötigt, was eine überlegene Dateneffizienz und Stabilität bei kompakten Größen belegt. Insgesamt etabliert RedOne 2.0 eine wettbewerbsfähige, kosteneffektive Baseline für domänenspezifische LLMs im SNS-Szenario und erweitert die Fähigkeiten, ohne Robustheit zu opfern.
English
As a key medium for human interaction and information exchange, social networking services (SNS) pose unique challenges for large language models (LLMs): heterogeneous workloads, fast-shifting norms and slang, and multilingual, culturally diverse corpora that induce sharp distribution shift. Supervised fine-tuning (SFT) can specialize models but often triggers a ``seesaw'' between in-distribution gains and out-of-distribution robustness, especially for smaller models. To address these challenges, we introduce RedOne 2.0, an SNS-oriented LLM trained with a progressive, RL-prioritized post-training paradigm designed for rapid and stable adaptation. The pipeline consist in three stages: (1) Exploratory Learning on curated SNS corpora to establish initial alignment and identify systematic weaknesses; (2) Targeted Fine-Tuning that selectively applies SFT to the diagnosed gaps while mixing a small fraction of general data to mitigate forgetting; and (3) Refinement Learning that re-applies RL with SNS-centric signals to consolidate improvements and harmonize trade-offs across tasks. Across various tasks spanning three categories, our 4B scale model delivers an average improvements about 2.41 over the 7B sub-optimal baseline. Additionally, RedOne 2.0 achieves average performance lift about 8.74 from the base model with less than half the data required by SFT-centric method RedOne, evidencing superior data efficiency and stability at compact scales. Overall, RedOne 2.0 establishes a competitive, cost-effective baseline for domain-specific LLMs in SNS scenario, advancing capability without sacrificing robustness.
PDF182December 2, 2025