RedOne 2.0: 소셜 네트워킹 서비스에서의 도메인 특화 LLM 사후 학습 재고
RedOne 2.0: Rethinking Domain-specific LLM Post-Training in Social Networking Services
November 10, 2025
저자: Fei Zhao, Chonggang Lu, Haofu Qian, Fangcheng Shi, Zijie Meng, Jianzhao Huang, Xu Tang, Zheyong Xie, Zheyu Ye, Zhe Xu, Yao Hu, Shaosheng Cao
cs.AI
초록
인간 상호작용과 정보 교류의 핵심 매체로서 소셜 네트워킹 서비스(SNS)는 대규모 언어 모델(LLM)에게 이질적인 워크로드, 빠르게 변화하는 규범 및 속어, 급격한 분포 변화를 유발하는 다국어 및 문화적으로 다양한 코퍼스라는 독특한 과제를 제기합니다. 지도 미세 조정(SFT)은 모델을 특화시킬 수 있지만, 특히 소규모 모델에서 내부 분포 성능 향상과 외부 분포 강건성 간의 「시소 효과」를 자주 유발합니다. 이러한 과제를 해결하기 위해 우리는 빠르고 안정적인 적응을 위해 설계된 점진적 강화 학습 우선 순위 사후 훈련 패러다임으로 훈련된 SNS 지향 LLM인 RedOne 2.0을 소개합니다. 이 파이프라인은 세 단계로 구성됩니다: (1) 선별된 SNS 코퍼스에 대한 탐색적 학습을 통한 초기 정렬 확립 및 체계적 약점 식별; (2) 진단된 격차에 선택적으로 SFT를 적용하면서 일반 데이터의 소량을 혼합하여 망각 현상을 완화하는 표적 미세 조정; (3) SNS 중심 신호로 강화 학습을 재적용하여 개선사항을 공고히 하고 작업 간 트레이드오프를 조화시키는 정제 학습. 세 가지 범주에 걸친 다양한 작업에서 우리의 40억 규모 모델은 70억 규모의 차선基线 모델 대비 평균 약 2.41의 성능 향상을 달성했습니다. 또한 RedOne 2.0은 SFT 중심 방법인 RedOne보다 필요한 데이터량의 절반 미만으로 기본 모델 대비 평균 약 8.74의 성능 향상을 이루어, 컴팩트 규모에서 우수한 데이터 효율성과 안정성을 입증했습니다. 전반적으로 RedOne 2.0은 SNS 시나리오에서 도메인 특화 LLM의 경쟁력 있고 비용 효율적인 기준을 제시하며, 강건성을 희생하지 않고 성능을 발전시켰습니다.
English
As a key medium for human interaction and information exchange, social
networking services (SNS) pose unique challenges for large language models
(LLMs): heterogeneous workloads, fast-shifting norms and slang, and
multilingual, culturally diverse corpora that induce sharp distribution shift.
Supervised fine-tuning (SFT) can specialize models but often triggers a
``seesaw'' between in-distribution gains and out-of-distribution robustness,
especially for smaller models. To address these challenges, we introduce RedOne
2.0, an SNS-oriented LLM trained with a progressive, RL-prioritized
post-training paradigm designed for rapid and stable adaptation. The pipeline
consist in three stages: (1) Exploratory Learning on curated SNS corpora to
establish initial alignment and identify systematic weaknesses; (2) Targeted
Fine-Tuning that selectively applies SFT to the diagnosed gaps while mixing a
small fraction of general data to mitigate forgetting; and (3) Refinement
Learning that re-applies RL with SNS-centric signals to consolidate
improvements and harmonize trade-offs across tasks. Across various tasks
spanning three categories, our 4B scale model delivers an average improvements
about 2.41 over the 7B sub-optimal baseline. Additionally, RedOne 2.0 achieves
average performance lift about 8.74 from the base model with less than half the
data required by SFT-centric method RedOne, evidencing superior data efficiency
and stability at compact scales. Overall, RedOne 2.0 establishes a competitive,
cost-effective baseline for domain-specific LLMs in SNS scenario, advancing
capability without sacrificing robustness.