Хирургическая постобработка: сокращение ошибок, сохранение знаний.

Аннотация

Повышение способностей к логическим рассуждениям у больших языковых моделей (LLMs) с помощью пост-обучения часто ограничено компромиссом между эффективностью и катастрофическим забыванием. В то время как предыдущие исследования подчеркивают роль данных on-policy в смягчении забывания, мы обнаружили — и подтвердили как теоретически, так и эмпирически — упускаемый из виду, но критически важный механизм: неявную регуляризацию, присущую оценке вознаграждения в оптимизации прямых предпочтений (DPO). Это мотивировало создание нашей методики Surgical Post-Training (SPoT) — новой парадигмы, разработанной для эффективной оптимизации логических рассуждений при сохранении ранее усвоенных знаний. SPoT состоит из: (1) конвейера коррекции данных, который использует Оракул для точечного исправления ошибочных шагов с помощью минимальных правок, генерируя данные, близкие к распределению модели; и (2) целевой функции бинарной перекрестной энтропии на основе вознаграждения. В отличие от относительного ранжирования в DPO, этот подход рассматривает корректность рассуждений как задачу бинарной классификации, обеспечивая раздельные сигналы обучения. Экспериментально, всего на 4 тыс. исправленных пар математических данных, SPoT повышает точность модели Qwen3-8B в среднем на 6.2% на внутри- и внеобластных задачах, требуя всего 28 минут обучения на 8 GPU H800. Код: https://github.com/Visual-AI/SPoT

English

Enhancing the reasoning capabilities of Large Language Models (LLMs) via post-training is often constrained by the trade-off between efficiency and catastrophic forgetting. While prior research emphasizes the role of on-policy data in mitigating forgetting, we uncover--and validate both theoretically and empirically--an overlooked yet critical mechanism: the implicit regularization inherent in Direct Preference Optimization's (DPO) reward estimate. This motivates our Surgical Post-Training (SPoT), a new paradigm designed to optimize reasoning efficiently while preserving learned prior knowledge. SPoT consists of: (1) a data rectification pipeline that employs an Oracle to surgically correct erroneous steps via minimal edits, generating data proximal to the model's distribution; and (2) a reward-based binary cross-entropy objective. Unlike the relative ranking in DPO, this objective treats reasoning correctness as a binary classification problem, enforcing decoupled supervision signals. Empirically, with only 4k rectified math data pairs, SPoT improves Qwen3-8B's accuracy by 6.2% on average across in-domain and OOD tasks, requiring merely 28 minutes of training on 8x H800 GPUs. Code: https://github.com/Visual-AI/SPoT

Хирургическая постобработка: сокращение ошибок, сохранение знаний.

Surgical Post-Training: Cutting Errors, Keeping Knowledge

Аннотация

Support