ChatPaper.aiChatPaper

RedOne 2.0: Een nieuwe kijk op domeinspecifieke LLM-natraining in sociale netwerkdiensten

RedOne 2.0: Rethinking Domain-specific LLM Post-Training in Social Networking Services

November 10, 2025
Auteurs: Fei Zhao, Chonggang Lu, Haofu Qian, Fangcheng Shi, Zijie Meng, Jianzhao Huang, Xu Tang, Zheyong Xie, Zheyu Ye, Zhe Xu, Yao Hu, Shaosheng Cao
cs.AI

Samenvatting

Als een belangrijk medium voor menselijke interactie en informatie-uitwisseling vormen sociale netwerkdiensten (SNS) unieke uitdagingen voor grote taalmodelen (LLM's): heterogene werklasten, snel veranderende normen en slang, en meertalige, cultureel diverse corpora die een sterke distributieverschuiving veroorzaken. Supervised fine-tuning (SFT) kan modellen specialiseren, maar leidt vaak tot een wip-effect tussen verbeteringen binnen de verdeling en robuustheid erbuiten, vooral bij kleinere modellen. Om deze uitdagingen aan te pakken, introduceren we RedOne 2.0, een SNS-gericht LLM getraind met een progressief, op reinforcement learning (RL) geprioriteerd post-trainingsparadigma, ontworpen voor snelle en stabiele aanpassing. De pijplijn bestaat uit drie fasen: (1) Explorerend Leren op gecureerde SNS-corpora om een initiële afstemming tot stand te brengen en systematische zwaktes te identificeren; (2) Gerichte Fine-Tuning die selectief SFT toepast op de gediagnosticeerde hiaten, terwijl een kleine fractie algemene data wordt gemengd om vergeten tegen te gaan; en (3) Verfijningsleren dat RL opnieuw toepast met SNS-gerichte signalen om verbeteringen te consolideren en afwegingen tussen taken te harmoniseren. Over verschillende taken verdeeld over drie categorieën heen, behaalt ons model van 4B schaal gemiddeld een verbetering van ongeveer 2,41 punten ten opzichte van de suboptimale 7B-basislijn. Daarnaast realiseert RedOne 2.0 een gemiddelde prestatieverbetering van ongeveer 8,74 ten opzichte van het basismodel met minder dan de helft van de data die de SFT-gerichte methode RedOne vereiste, wat superieure data-efficiëntie en stabiliteit op compacte schaal aantoont. Over het geheel genomen vestigt RedOne 2.0 een competitieve, kosteneffectieve basislijn voor domeinspecifieke LLM's in het SNS-scenario, waarbij capaciteit wordt vergroot zonder robuustheid op te offeren.
English
As a key medium for human interaction and information exchange, social networking services (SNS) pose unique challenges for large language models (LLMs): heterogeneous workloads, fast-shifting norms and slang, and multilingual, culturally diverse corpora that induce sharp distribution shift. Supervised fine-tuning (SFT) can specialize models but often triggers a ``seesaw'' between in-distribution gains and out-of-distribution robustness, especially for smaller models. To address these challenges, we introduce RedOne 2.0, an SNS-oriented LLM trained with a progressive, RL-prioritized post-training paradigm designed for rapid and stable adaptation. The pipeline consist in three stages: (1) Exploratory Learning on curated SNS corpora to establish initial alignment and identify systematic weaknesses; (2) Targeted Fine-Tuning that selectively applies SFT to the diagnosed gaps while mixing a small fraction of general data to mitigate forgetting; and (3) Refinement Learning that re-applies RL with SNS-centric signals to consolidate improvements and harmonize trade-offs across tasks. Across various tasks spanning three categories, our 4B scale model delivers an average improvements about 2.41 over the 7B sub-optimal baseline. Additionally, RedOne 2.0 achieves average performance lift about 8.74 from the base model with less than half the data required by SFT-centric method RedOne, evidencing superior data efficiency and stability at compact scales. Overall, RedOne 2.0 establishes a competitive, cost-effective baseline for domain-specific LLMs in SNS scenario, advancing capability without sacrificing robustness.
PDF182December 2, 2025