ChatPaper.aiChatPaper

RedOne 2.0: Переосмысление доменно-специфичного посттренинга больших языковых моделей в сервисах социальных сетей

RedOne 2.0: Rethinking Domain-specific LLM Post-Training in Social Networking Services

November 10, 2025
Авторы: Fei Zhao, Chonggang Lu, Haofu Qian, Fangcheng Shi, Zijie Meng, Jianzhao Huang, Xu Tang, Zheyong Xie, Zheyu Ye, Zhe Xu, Yao Hu, Shaosheng Cao
cs.AI

Аннотация

Социальные сети как ключевой инструмент человеческого взаимодействия и обмена информацией создают уникальные проблемы для больших языковых моделей: неоднородные рабочие нагрузки, быстро меняющиеся нормы и сленг, а также многоязычные, культурно разнообразные корпуса, вызывающие резкий распределительный сдвиг. Контролируемое тонкое настройка позволяет специализировать модели, но часто приводит к «качелям» между улучшениями внутри распределения и устойчивостью за его пределами, особенно для небольших моделей. Для решения этих проблем мы представляем RedOne 2.0 — LLM для социальных сетей, обученную по прогрессивной пост-тренировочной парадигме с приоритизацией обучения с подкреплением, предназначенной для быстрой и стабильной адаптации. Конвейер включает три этапа: (1) Исследовательское обучение на курируемых корпусах из соцсетей для первоначального выравнивания и выявления системных слабостей; (2) Целевая тонкая настройка, выборочно применяющая SFT к диагностированным пробелам при смешивании малой доли общих данных для снижения забывания; и (3) Обучение доработки, повторно применяющее RL с ориентированными на соцсети сигналами для закрепления улучшений и гармонизации компромиссов между задачами. В различных задачах трёх категорий наша модель масштаба 4B демонстрирует среднее улучшение около 2.41 по сравнению с субоптимальным базовым уровнем 7B. Кроме того, RedOne 2.0 достигает среднего прироста производительности около 8.74 от базовой модели, используя менее половины данных, требуемых SFT-ориентированным методом RedOne, что свидетельствует о превосходной эффективности данных и стабильности при компактных масштабах. В целом RedOne 2.0 устанавливает конкурентоспособный, экономически эффективный базовый уровень для предметно-ориентированных LLM в сценариях социальных сетей, повышая возможности без ущерба для устойчивости.
English
As a key medium for human interaction and information exchange, social networking services (SNS) pose unique challenges for large language models (LLMs): heterogeneous workloads, fast-shifting norms and slang, and multilingual, culturally diverse corpora that induce sharp distribution shift. Supervised fine-tuning (SFT) can specialize models but often triggers a ``seesaw'' between in-distribution gains and out-of-distribution robustness, especially for smaller models. To address these challenges, we introduce RedOne 2.0, an SNS-oriented LLM trained with a progressive, RL-prioritized post-training paradigm designed for rapid and stable adaptation. The pipeline consist in three stages: (1) Exploratory Learning on curated SNS corpora to establish initial alignment and identify systematic weaknesses; (2) Targeted Fine-Tuning that selectively applies SFT to the diagnosed gaps while mixing a small fraction of general data to mitigate forgetting; and (3) Refinement Learning that re-applies RL with SNS-centric signals to consolidate improvements and harmonize trade-offs across tasks. Across various tasks spanning three categories, our 4B scale model delivers an average improvements about 2.41 over the 7B sub-optimal baseline. Additionally, RedOne 2.0 achieves average performance lift about 8.74 from the base model with less than half the data required by SFT-centric method RedOne, evidencing superior data efficiency and stability at compact scales. Overall, RedOne 2.0 establishes a competitive, cost-effective baseline for domain-specific LLMs in SNS scenario, advancing capability without sacrificing robustness.
PDF182December 2, 2025