Formation Post-Chirurgicale : Réduire les Erreurs, Préserver les Connaissances

Résumé

L'amélioration des capacités de raisonnement des grands modèles de langage (LLM) via un post-entraînement est souvent limitée par le compromis entre efficacité et oubli catastrophique. Si les recherches antérieures soulignent le rôle des données « on-policy » pour atténuer l'oubli, nous identifions — et validons théoriquement et empiriquement — un mécanisme négligé mais critique : la régularisation implicite inhérente à l'estimation de la récompense par l'Optimisation Directe des Préférences (DPO). Cela motive notre méthode de Post-Entraînement Chirurgical (SPoT), un nouveau paradigme conçu pour optimiser le raisonnement efficacement tout en préservant les connaissances antérieures acquises. SPoT se compose : (1) d'un pipeline de rectification des données qui utilise un Oracle pour corriger de manière chirurgicale les étapes erronées via des modifications minimales, générant des données proches de la distribution du modèle ; et (2) d'un objectif basé sur la récompense utilisant l'entropie croisée binaire. Contrairement au classement relatif dans DPO, cet objectif traite l'exactitude du raisonnement comme un problème de classification binaire, appliquant des signaux de supervision découplés. Empiriquement, avec seulement 4 000 paires de données mathématiques rectifiées, SPoT améliore la précision de Qwen3-8B de 6,2 % en moyenne sur des tâches internes et externes au domaine, nécessitant seulement 28 minutes d'entraînement sur 8 GPU H800. Code : https://github.com/Visual-AI/SPoT

English

Enhancing the reasoning capabilities of Large Language Models (LLMs) via post-training is often constrained by the trade-off between efficiency and catastrophic forgetting. While prior research emphasizes the role of on-policy data in mitigating forgetting, we uncover--and validate both theoretically and empirically--an overlooked yet critical mechanism: the implicit regularization inherent in Direct Preference Optimization's (DPO) reward estimate. This motivates our Surgical Post-Training (SPoT), a new paradigm designed to optimize reasoning efficiently while preserving learned prior knowledge. SPoT consists of: (1) a data rectification pipeline that employs an Oracle to surgically correct erroneous steps via minimal edits, generating data proximal to the model's distribution; and (2) a reward-based binary cross-entropy objective. Unlike the relative ranking in DPO, this objective treats reasoning correctness as a binary classification problem, enforcing decoupled supervision signals. Empirically, with only 4k rectified math data pairs, SPoT improves Qwen3-8B's accuracy by 6.2% on average across in-domain and OOD tasks, requiring merely 28 minutes of training on 8x H800 GPUs. Code: https://github.com/Visual-AI/SPoT

Formation Post-Chirurgicale : Réduire les Erreurs, Préserver les Connaissances

Surgical Post-Training: Cutting Errors, Keeping Knowledge

Résumé

Support