Post-Formazione Chirurgica: Ridurre gli Errori, Conservare la Conoscenza

Abstract

Il potenziamento delle capacità di ragionamento dei Large Language Model (LLM) mediante post-training è spesso limitato dal compromesso tra efficienza e oblio catastrofico. Sebbene la ricerca precedente sottolinei il ruolo dei dati on-policy nell'attenuare l'oblio, noi scopriamo – e validiamo sia teoricamente che empiricamente – un meccanismo trascurato ma critico: la regolarizzazione implicita insita nella stima della ricompensa dell'Optimizzazione Diretta delle Preferenze (DPO). Ciò motiva il nostro Surgical Post-Training (SPoT), un nuovo paradigma progettato per ottimizzare il ragionamento in modo efficiente preservando le conoscenze pregresse apprese. SPoT consiste in: (1) una pipeline di rettifica dei dati che impiega un Oracle per correggere chirurgicamente i passaggi errati tramite modifiche minime, generando dati prossimi alla distribuzione del modello; e (2) un obiettivo di entropia incrociata binaria basato sulla ricompensa. A differenza della classificazione relativa nel DPO, questo obiettivo tratta la correttezza del ragionamento come un problema di classificazione binaria, applicando segnali di supervisione disaccoppiati. Empiricamente, con soli 4k coppie di dati matematici rettificati, SPoT migliora l'accuratezza di Qwen3-8B del 6.2% in media su task in-dominio e out-of-distribution, richiedendo appena 28 minuti di training su 8 GPU H800. Codice: https://github.com/Visual-AI/SPoT

English

Enhancing the reasoning capabilities of Large Language Models (LLMs) via post-training is often constrained by the trade-off between efficiency and catastrophic forgetting. While prior research emphasizes the role of on-policy data in mitigating forgetting, we uncover--and validate both theoretically and empirically--an overlooked yet critical mechanism: the implicit regularization inherent in Direct Preference Optimization's (DPO) reward estimate. This motivates our Surgical Post-Training (SPoT), a new paradigm designed to optimize reasoning efficiently while preserving learned prior knowledge. SPoT consists of: (1) a data rectification pipeline that employs an Oracle to surgically correct erroneous steps via minimal edits, generating data proximal to the model's distribution; and (2) a reward-based binary cross-entropy objective. Unlike the relative ranking in DPO, this objective treats reasoning correctness as a binary classification problem, enforcing decoupled supervision signals. Empirically, with only 4k rectified math data pairs, SPoT improves Qwen3-8B's accuracy by 6.2% on average across in-domain and OOD tasks, requiring merely 28 minutes of training on 8x H800 GPUs. Code: https://github.com/Visual-AI/SPoT

Post-Formazione Chirurgica: Ridurre gli Errori, Conservare la Conoscenza

Surgical Post-Training: Cutting Errors, Keeping Knowledge

Abstract

Support