Pós-Treinamento Cirúrgico: Cortando Erros, Mantendo o Conhecimento

Resumo

A melhoria das capacidades de raciocínio de Modelos de Linguagem de Grande Porte (LLMs) através do pós-treinamento é frequentemente limitada pelo compromisso entre eficiência e o esquecimento catastrófico. Embora pesquisas anteriores enfatizem o papel dos dados *on-policy* na mitigação do esquecimento, nós revelamos – e validamos tanto teoricamente quanto empiricamente – um mecanismo negligenciado, porém crítico: a regularização implícita inerente à estimativa de recompensa da Otimização Direta de Preferências (DPO). Isso motiva nosso *Surgical Post-Training* (SPoT), um novo paradigma projetado para otimizar o raciocínio de forma eficiente, preservando o conhecimento prévio aprendido. O SPoT consiste em: (1) um *pipeline* de retificação de dados que emprega um Oráculo para corrigir cirurgicamente passos errôneos por meio de edições mínimas, gerando dados próximos à distribuição do modelo; e (2) um objetivo de entropia cruzada binária baseado em recompensa. Diferente do ranqueamento relativo na DPO, este objetivo trata a correção do raciocínio como um problema de classificação binária, aplicando sinais de supervisão desacoplados. Empiricamente, com apenas 4k pares de dados matemáticos retificados, o SPoT melhora a precisão do Qwen3-8B em 6,2% em média em tarefas *in-domain* e de fora da distribuição (OOD), exigindo meros 28 minutos de treinamento em 8 GPUs H800. Código: https://github.com/Visual-AI/SPoT

English

Enhancing the reasoning capabilities of Large Language Models (LLMs) via post-training is often constrained by the trade-off between efficiency and catastrophic forgetting. While prior research emphasizes the role of on-policy data in mitigating forgetting, we uncover--and validate both theoretically and empirically--an overlooked yet critical mechanism: the implicit regularization inherent in Direct Preference Optimization's (DPO) reward estimate. This motivates our Surgical Post-Training (SPoT), a new paradigm designed to optimize reasoning efficiently while preserving learned prior knowledge. SPoT consists of: (1) a data rectification pipeline that employs an Oracle to surgically correct erroneous steps via minimal edits, generating data proximal to the model's distribution; and (2) a reward-based binary cross-entropy objective. Unlike the relative ranking in DPO, this objective treats reasoning correctness as a binary classification problem, enforcing decoupled supervision signals. Empirically, with only 4k rectified math data pairs, SPoT improves Qwen3-8B's accuracy by 6.2% on average across in-domain and OOD tasks, requiring merely 28 minutes of training on 8x H800 GPUs. Code: https://github.com/Visual-AI/SPoT

Pós-Treinamento Cirúrgico: Cortando Erros, Mantendo o Conhecimento

Surgical Post-Training: Cutting Errors, Keeping Knowledge

Resumo

Support