Vincere la Scommessa del Pruning: Un Approccio Unificato per il Pruning Congiunto di Campioni e Token per un Fine-Tuning Supervisionato Efficiente
Winning the Pruning Gamble: A Unified Approach to Joint Sample and Token Pruning for Efficient Supervised Fine-Tuning
September 28, 2025
Autori: Shaobo Wang, Jiaming Wang, Jiajun Zhang, Cong Wang, Yue Min, Zichen Wen, Fei Huang, Huiqiang Jiang, Junyang Lin, Dayiheng Liu, Linfeng Zhang
cs.AI
Abstract
Man mano che il fine-tuning supervisionato (SFT) evolve da un passaggio leggero post-addestramento a una fase intensiva dal punto di vista computazionale, paragonabile per scala alla fase intermedia dell'addestramento, l'efficienza dei dati è diventata cruciale per allineare i grandi modelli linguistici (LLM) con budget limitati. I metodi esistenti di pruning dei dati soffrono di una progettazione frammentata: operano isolatamente a livello di campione o di token, senza ottimizzare congiuntamente entrambe le dimensioni. Questa disconnessione porta a significative inefficienze: campioni di alto valore possono comunque contenere token ridondanti, mentre il pruning a livello di token spesso scarta segnali cruciali di istruzione o correzione incorporati in singoli esempi. Per affrontare questo collo di bottiglia, introduciamo il Piano Errore-Incertezza (EU), un framework diagnostico che caratterizza congiuntamente l'utilità eterogenea dei dati di addestramento attraverso campioni e token. Guidati da questa intuizione, proponiamo il Quadrant-based Tuning (Q-Tuning), un framework unificato che coordina strategicamente il pruning a livello di campione e di token. Q-Tuning impiega una strategia in due fasi: prima, esegue una triage a livello di campione per mantenere esempi ricchi di misconcezioni informative o segnali di calibrazione; in secondo luogo, applica una politica asimmetrica di pruning dei token, utilizzando un meccanismo di punteggio contestuale per eliminare i token meno salienti esclusivamente dai campioni di misconcezione, preservando interamente i campioni di calibrazione. Il nostro metodo stabilisce un nuovo stato dell'arte su cinque benchmark diversi. In modo notevole, su SmolLM2-1.7B, Q-Tuning ottiene un miglioramento medio del +38% rispetto alla baseline SFT con dati completi, utilizzando solo il 12,5% dei dati di addestramento originali. Come primo approccio di pruning dinamico a superare costantemente l'addestramento con dati completi, Q-Tuning fornisce una guida pratica e scalabile per massimizzare l'utilizzo dei dati nel SFT di LLM con budget limitati.
English
As supervised fine-tuning (SFT) evolves from a lightweight post-training step
into a compute-intensive phase rivaling mid-training in scale, data efficiency
has become critical for aligning large language models (LLMs) under tight
budgets. Existing data pruning methods suffer from a fragmented design: they
operate either at the sample level or the token level in isolation, failing to
jointly optimize both dimensions. This disconnect leads to significant
inefficiencies--high-value samples may still contain redundant tokens, while
token-level pruning often discards crucial instructional or corrective signals
embedded in individual examples. To address this bottleneck, we introduce the
Error-Uncertainty (EU) Plane, a diagnostic framework that jointly characterizes
the heterogeneous utility of training data across samples and tokens. Guided by
this insight, we propose Quadrant-based Tuning (Q-Tuning), a unified framework
that strategically coordinates sample pruning and token pruning. Q-Tuning
employs a two-stage strategy: first, it performs sample-level triage to retain
examples rich in informative misconceptions or calibration signals; second, it
applies an asymmetric token-pruning policy, using a context-aware scoring
mechanism to trim less salient tokens exclusively from misconception samples
while preserving calibration samples in their entirety. Our method sets a new
state of the art across five diverse benchmarks. Remarkably, on SmolLM2-1.7B,
Q-Tuning achieves a +38\% average improvement over the full-data SFT baseline
using only 12.5\% of the original training data. As the first dynamic pruning
approach to consistently outperform full-data training, Q-Tuning provides a
practical and scalable blueprint for maximizing data utilization in
budget-constrained LLM SFT.