RedOne 2.0: Repensando o Pós-treinamento de LLMs Específicos de Domínio em Serviços de Redes Sociais

Resumo

Como um meio fundamental para a interação humana e troca de informações, os serviços de redes sociais (SRS) apresentam desafios únicos para os grandes modelos de linguagem (LLMs): cargas de trabalho heterogéneas, normas e gírias em rápida mudança, e corpora multilingues e culturalmente diversos que induzem uma mudança brusca de distribuição. O ajuste fino supervisionado (SFT) pode especializar modelos, mas frequentemente desencadeia um "sobe-e-desce" entre ganhos dentro da distribuição e robustez fora dela, especialmente para modelos menores. Para enfrentar estes desafios, apresentamos o RedOne 2.0, um LLM orientado para SRS treinado com um paradigma pós-treinamento progressivo e priorizado por aprendizagem por reforço (RL), concebido para uma adaptação rápida e estável. O *pipeline* consiste em três etapas: (1) Aprendizagem Exploratória em corpora de SRS curados para estabelecer um alinhamento inicial e identificar fraquezas sistemáticas; (2) Ajuste Fino Direcionado que aplica seletivamente o SFT às lacunas diagnosticadas, misturando uma pequena fração de dados gerais para mitigar o esquecimento; e (3) Aprendizagem de Refinamento que reaplica o RL com sinais centrados em SRS para consolidar melhorias e harmonizar compromissos entre tarefas. Em várias tarefas abrangendo três categorias, o nosso modelo de escala 4B proporciona melhorias médias de cerca de 2,41 pontos em relação à linha de base subótima de 7B. Adicionalmente, o RedOne 2.0 alcança um aumento médio de desempenho de cerca de 8,74 pontos em relação ao modelo base, utilizando menos de metade dos dados necessários pelo método centrado em SFT RedOne, evidenciando uma eficiência e estabilidade de dados superiores em escalas compactas. Globalmente, o RedOne 2.0 estabelece uma linha de base competitiva e económica para LLMs específicos de domínio no cenário das SRS, avançando a capacidade sem sacrificar a robustez.

English

As a key medium for human interaction and information exchange, social networking services (SNS) pose unique challenges for large language models (LLMs): heterogeneous workloads, fast-shifting norms and slang, and multilingual, culturally diverse corpora that induce sharp distribution shift. Supervised fine-tuning (SFT) can specialize models but often triggers a ``seesaw'' between in-distribution gains and out-of-distribution robustness, especially for smaller models. To address these challenges, we introduce RedOne 2.0, an SNS-oriented LLM trained with a progressive, RL-prioritized post-training paradigm designed for rapid and stable adaptation. The pipeline consist in three stages: (1) Exploratory Learning on curated SNS corpora to establish initial alignment and identify systematic weaknesses; (2) Targeted Fine-Tuning that selectively applies SFT to the diagnosed gaps while mixing a small fraction of general data to mitigate forgetting; and (3) Refinement Learning that re-applies RL with SNS-centric signals to consolidate improvements and harmonize trade-offs across tasks. Across various tasks spanning three categories, our 4B scale model delivers an average improvements about 2.41 over the 7B sub-optimal baseline. Additionally, RedOne 2.0 achieves average performance lift about 8.74 from the base model with less than half the data required by SFT-centric method RedOne, evidencing superior data efficiency and stability at compact scales. Overall, RedOne 2.0 establishes a competitive, cost-effective baseline for domain-specific LLMs in SNS scenario, advancing capability without sacrificing robustness.

RedOne 2.0: Repensando o Pós-treinamento de LLMs Específicos de Domínio em Serviços de Redes Sociais

RedOne 2.0: Rethinking Domain-specific LLM Post-Training in Social Networking Services

Resumo

Support