ChatPaper.aiChatPaper

RedOne 2.0: Repensando el Post-entrenamiento de LLM Específicos de Dominio en Servicios de Redes Sociales

RedOne 2.0: Rethinking Domain-specific LLM Post-Training in Social Networking Services

November 10, 2025
Autores: Fei Zhao, Chonggang Lu, Haofu Qian, Fangcheng Shi, Zijie Meng, Jianzhao Huang, Xu Tang, Zheyong Xie, Zheyu Ye, Zhe Xu, Yao Hu, Shaosheng Cao
cs.AI

Resumen

Como medio clave para la interacción humana y el intercambio de información, los servicios de redes sociales (SRS) plantean desafíos únicos para los grandes modelos de lenguaje (LLM): cargas de trabajo heterogéneas, normas y jerga de rápida evolución, y corpus multilingües y culturalmente diversos que inducen un cambio de distribución abrupto. El ajuste fino supervisado (SFT) puede especializar modelos, pero a menudo desencadena un "sube y baja" entre las gancias dentro de la distribución y la robustez fuera de ella, especialmente para modelos más pequeños. Para abordar estos desafíos, presentamos RedOne 2.0, un LLM orientado a SRS entrenado con un paradigma de post-entrenamiento progresivo y priorizado por RL diseñado para una adaptación rápida y estable. La canalización consiste en tres etapas: (1) Aprendizaje Exploratorio en corpus de SRS seleccionados para establecer una alineación inicial e identificar debilidades sistemáticas; (2) Ajuste Fino Dirigido que aplica selectivamente SFT a las brechas diagnosticadas mezclando una pequeña fracción de datos generales para mitigar el olvido; y (3) Aprendizaje de Refinamiento que re-aplica RL con señales centradas en SRS para consolidar mejoras y armonizar compensaciones entre tareas. En varias tareas que abarcan tres categorías, nuestro modelo de escala 4B ofrece mejoras promedio de aproximadamente 2.41 puntos sobre la línea base subóptima de 7B. Adicionalmente, RedOne 2.0 logra un aumento de rendimiento promedio de aproximadamente 8.74 puntos respecto al modelo base, utilizando menos de la mitad de los datos requeridos por el método centrado en SFT RedOne, evidenciando una eficiencia de datos y una estabilidad superiores en escalas compactas. En general, RedOne 2.0 establece una línea base competitiva y rentable para LLM específicos de dominio en escenarios de SRS, avanzando en capacidades sin sacrificar la robustez.
English
As a key medium for human interaction and information exchange, social networking services (SNS) pose unique challenges for large language models (LLMs): heterogeneous workloads, fast-shifting norms and slang, and multilingual, culturally diverse corpora that induce sharp distribution shift. Supervised fine-tuning (SFT) can specialize models but often triggers a ``seesaw'' between in-distribution gains and out-of-distribution robustness, especially for smaller models. To address these challenges, we introduce RedOne 2.0, an SNS-oriented LLM trained with a progressive, RL-prioritized post-training paradigm designed for rapid and stable adaptation. The pipeline consist in three stages: (1) Exploratory Learning on curated SNS corpora to establish initial alignment and identify systematic weaknesses; (2) Targeted Fine-Tuning that selectively applies SFT to the diagnosed gaps while mixing a small fraction of general data to mitigate forgetting; and (3) Refinement Learning that re-applies RL with SNS-centric signals to consolidate improvements and harmonize trade-offs across tasks. Across various tasks spanning three categories, our 4B scale model delivers an average improvements about 2.41 over the 7B sub-optimal baseline. Additionally, RedOne 2.0 achieves average performance lift about 8.74 from the base model with less than half the data required by SFT-centric method RedOne, evidencing superior data efficiency and stability at compact scales. Overall, RedOne 2.0 establishes a competitive, cost-effective baseline for domain-specific LLMs in SNS scenario, advancing capability without sacrificing robustness.
PDF182December 2, 2025