Formación Quirúrgica Continua: Erradicando Errores, Preservando el Conocimiento

Resumen

La mejora de las capacidades de razonamiento de los Modelos de Lenguaje a Gran Escala (LLMs) mediante el post-entrenamiento suele verse limitada por la disyuntiva entre eficiencia y el olvido catastrófico. Si bien investigaciones previas enfatizan el papel de los datos *on-policy* para mitigar el olvido, nosotros descubrimos —y validamos tanto teórica como empíricamente— un mecanismo crítico pero pasado por alto: la regularización implícita inherente a la estimación de recompensa de la Optimización Directa de Preferencias (DPO). Esto motiva nuestro Post-Entrenamiento Quirúrgico (SPoT), un nuevo paradigma diseñado para optimizar el razonamiento de manera eficiente mientras se preserva el conocimiento previo aprendido. SPoT consta de: (1) un pipeline de rectificación de datos que emplea un Oráculo para corregir quirúrgicamente los pasos erróneos mediante ediciones mínimas, generando datos próximos a la distribución del modelo; y (2) un objetivo de entropía cruzada binaria basado en recompensas. A diferencia del ranking relativo en DPO, este objetivo trata la corrección del razonamiento como un problema de clasificación binaria, aplicando señales de supervisión desacopladas. Empíricamente, con solo 4k pares de datos matemáticos rectificados, SPoT mejora la precisión de Qwen3-8B en un 6.2% en promedio en tareas internas y externas al dominio, requiriendo apenas 28 minutos de entrenamiento en 8 GPUs H800. Código: https://github.com/Visual-AI/SPoT

English

Enhancing the reasoning capabilities of Large Language Models (LLMs) via post-training is often constrained by the trade-off between efficiency and catastrophic forgetting. While prior research emphasizes the role of on-policy data in mitigating forgetting, we uncover--and validate both theoretically and empirically--an overlooked yet critical mechanism: the implicit regularization inherent in Direct Preference Optimization's (DPO) reward estimate. This motivates our Surgical Post-Training (SPoT), a new paradigm designed to optimize reasoning efficiently while preserving learned prior knowledge. SPoT consists of: (1) a data rectification pipeline that employs an Oracle to surgically correct erroneous steps via minimal edits, generating data proximal to the model's distribution; and (2) a reward-based binary cross-entropy objective. Unlike the relative ranking in DPO, this objective treats reasoning correctness as a binary classification problem, enforcing decoupled supervision signals. Empirically, with only 4k rectified math data pairs, SPoT improves Qwen3-8B's accuracy by 6.2% on average across in-domain and OOD tasks, requiring merely 28 minutes of training on 8x H800 GPUs. Code: https://github.com/Visual-AI/SPoT

Formación Quirúrgica Continua: Erradicando Errores, Preservando el Conocimiento

Surgical Post-Training: Cutting Errors, Keeping Knowledge

Resumen

Support