Chirurgische Nascholing: Fouten Uitsnijden, Kennis Behouden

Samenvatting

Het verbeteren van de redeneercapaciteiten van Large Language Models (LLM's) via post-training wordt vaak beperkt door de afweging tussen efficiëntie en catastrofaal vergeten. Waar eerder onderzoek de rol van on-policy data benadrukt om vergeten tegen te gaan, ontdekken wij – en valideren zowel theoretisch als empirisch – een over het hoofd gezien maar cruciaal mechanisme: de impliciete regularisatie die inherent is aan de beloningsschatting van Direct Preference Optimization (DPO). Dit motiveert onze Surgical Post-Training (SPoT), een nieuw paradigma ontworpen om redeneren efficiënt te optimaliseren terwijl reeds verworven kennis behouden blijft. SPoT bestaat uit: (1) een datarectificatiepijplijn die een Oracle gebruikt om foutieve stappen chirurgisch te corrigeren via minimale bewerkingen, waardoor data gegenereerd wordt die dicht bij de verdeling van het model ligt; en (2) een op beloning gebaseerd binair cross-entropy doel. In tegenstelling tot de relatieve rangschikking in DPO, behandelt dit doel de redeneernauwkeurigheid als een binaire classificatieprobleem, waarbij ontkoppelde supervisiesignalen worden afgedwongen. Empirisch gezien verbetert SPoT met slechts 4k gecorrigeerde wiskundige dataparen de nauwkeurigheid van Qwen3-8B met gemiddeld 6,2% op zowel in-domein als out-of-distribution (OOD) taken, waarbij slechts 28 minuten training op 8x H800 GPU's nodig is. Code: https://github.com/Visual-AI/SPoT

English

Enhancing the reasoning capabilities of Large Language Models (LLMs) via post-training is often constrained by the trade-off between efficiency and catastrophic forgetting. While prior research emphasizes the role of on-policy data in mitigating forgetting, we uncover--and validate both theoretically and empirically--an overlooked yet critical mechanism: the implicit regularization inherent in Direct Preference Optimization's (DPO) reward estimate. This motivates our Surgical Post-Training (SPoT), a new paradigm designed to optimize reasoning efficiently while preserving learned prior knowledge. SPoT consists of: (1) a data rectification pipeline that employs an Oracle to surgically correct erroneous steps via minimal edits, generating data proximal to the model's distribution; and (2) a reward-based binary cross-entropy objective. Unlike the relative ranking in DPO, this objective treats reasoning correctness as a binary classification problem, enforcing decoupled supervision signals. Empirically, with only 4k rectified math data pairs, SPoT improves Qwen3-8B's accuracy by 6.2% on average across in-domain and OOD tasks, requiring merely 28 minutes of training on 8x H800 GPUs. Code: https://github.com/Visual-AI/SPoT

Chirurgische Nascholing: Fouten Uitsnijden, Kennis Behouden

Surgical Post-Training: Cutting Errors, Keeping Knowledge

Samenvatting

Support