Chirurgische Nachqualifikation: Fehler reduzieren, Wissen erhalten

Zusammenfassung

Die Verbesserung der Reasoning-Fähigkeiten von Large Language Models (LLMs) durch Post-Training wird häufig durch den Zielkonflikt zwischen Effizienz und katastrophalem Vergessen eingeschränkt. Während frühere Forschung die Rolle von On-Policy-Daten zur Minderung von Vergessen betont, entdecken wir – und validieren dies sowohl theoretisch als auch empirisch – einen übersehenen, jedoch kritischen Mechanismus: die implizite Regularisierung, die der Reward-Schätzung von Direct Preference Optimization (DPO) innewohnt. Dies motiviert unser Surgical Post-Training (SPoT), ein neues Paradigma, das entwickelt wurde, um Reasoning effizient zu optimieren und gleichzeitig erlerntes Vorwissen zu bewahren. SPoT besteht aus: (1) einer Datenbereinigungs-Pipeline, die ein Oracle einsetzt, um fehlerhafte Schritte durch minimale Bearbeitung gezielt zu korrigieren und so datennahe Daten zur Modellverteilung zu generieren; und (2) einem reward-basierten binären Kreuzentropie-Ziel. Im Gegensatz zur relativen Rangfolge in DPO behandelt dieses Ziel die Korrektheit des Reasonings als binäres Klassifikationsproblem und erzwingt entkoppelte Überwachungssignale. Empirisch verbessert SPoT mit nur 4.000 bereinigten Mathematik-Datenpaaren die Genauigkeit von Qwen3-8B im Durchschnitt um 6,2 % bei In-Domain- und OOD-Aufgaben und erfordert lediglich 28 Minuten Training auf 8x H800-GPUs. Code: https://github.com/Visual-AI/SPoT

English

Enhancing the reasoning capabilities of Large Language Models (LLMs) via post-training is often constrained by the trade-off between efficiency and catastrophic forgetting. While prior research emphasizes the role of on-policy data in mitigating forgetting, we uncover--and validate both theoretically and empirically--an overlooked yet critical mechanism: the implicit regularization inherent in Direct Preference Optimization's (DPO) reward estimate. This motivates our Surgical Post-Training (SPoT), a new paradigm designed to optimize reasoning efficiently while preserving learned prior knowledge. SPoT consists of: (1) a data rectification pipeline that employs an Oracle to surgically correct erroneous steps via minimal edits, generating data proximal to the model's distribution; and (2) a reward-based binary cross-entropy objective. Unlike the relative ranking in DPO, this objective treats reasoning correctness as a binary classification problem, enforcing decoupled supervision signals. Empirically, with only 4k rectified math data pairs, SPoT improves Qwen3-8B's accuracy by 6.2% on average across in-domain and OOD tasks, requiring merely 28 minutes of training on 8x H800 GPUs. Code: https://github.com/Visual-AI/SPoT

Chirurgische Nachqualifikation: Fehler reduzieren, Wissen erhalten

Surgical Post-Training: Cutting Errors, Keeping Knowledge

Zusammenfassung

Support