Het Winnen van het Snoeigokspel: Een Geïntegreerde Aanpak voor Gecombineerde Sample- en Token-Snoei voor Efficiënte Supervised Fine-Tuning
Winning the Pruning Gamble: A Unified Approach to Joint Sample and Token Pruning for Efficient Supervised Fine-Tuning
September 28, 2025
Auteurs: Shaobo Wang, Jiaming Wang, Jiajun Zhang, Cong Wang, Yue Min, Zichen Wen, Fei Huang, Huiqiang Jiang, Junyang Lin, Dayiheng Liu, Linfeng Zhang
cs.AI
Samenvatting
Naarmate supervised fine-tuning (SFT) evolueert van een lichtgewicht stap na de training naar een rekenintensieve fase die qua omvang vergelijkbaar is met mid-training, is data-efficiëntie cruciaal geworden voor het afstemmen van grote taalmodellen (LLM's) onder strikte budgetten. Bestaande methoden voor data-pruning lijden onder een gefragmenteerd ontwerp: ze werken ofwel op het niveau van individuele voorbeelden ofwel op het niveau van tokens, zonder beide dimensies gezamenlijk te optimaliseren. Deze disconnectie leidt tot aanzienlijke inefficiënties—hoogwaardige voorbeelden kunnen nog steeds redundante tokens bevatten, terwijl token-level pruning vaak cruciale instructie- of correctiesignalen in individuele voorbeelden wegwerpt. Om dit knelpunt aan te pakken, introduceren we het Error-Uncertainty (EU) Vlak, een diagnostisch raamwerk dat de heterogene bruikbaarheid van trainingsdata gezamenlijk karakteriseert over zowel voorbeelden als tokens. Geleid door dit inzicht stellen we Quadrant-based Tuning (Q-Tuning) voor, een uniform raamwerk dat strategisch sample-pruning en token-pruning coördineert. Q-Tuning hanteert een tweestapsstrategie: eerst voert het een triage op voorbeeldniveau uit om voorbeelden te behouden die rijk zijn aan informatieve misvattingen of calibratiesignalen; vervolgens past het een asymmetrisch token-pruningbeleid toe, waarbij een contextbewust scoringsmechanisme wordt gebruikt om minder prominente tokens uitsluitend uit misvatting-voorbeelden te verwijderen, terwijl calibratie-voorbeelden in hun geheel worden behouden. Onze methode vestigt een nieuwe staat van de kunst over vijf diverse benchmarks. Opmerkelijk is dat Q-Tuning op SmolLM2-1.7B een gemiddelde verbetering van +38\% bereikt ten opzichte van de volledige-data SFT-baseline, met slechts 12,5\% van de oorspronkelijke trainingsdata. Als de eerste dynamische pruning-aanpak die consistent beter presteert dan volledige-data training, biedt Q-Tuning een praktische en schaalbare blauwdruk voor het maximaliseren van data-gebruik in budgetbeperkte LLM SFT.
English
As supervised fine-tuning (SFT) evolves from a lightweight post-training step
into a compute-intensive phase rivaling mid-training in scale, data efficiency
has become critical for aligning large language models (LLMs) under tight
budgets. Existing data pruning methods suffer from a fragmented design: they
operate either at the sample level or the token level in isolation, failing to
jointly optimize both dimensions. This disconnect leads to significant
inefficiencies--high-value samples may still contain redundant tokens, while
token-level pruning often discards crucial instructional or corrective signals
embedded in individual examples. To address this bottleneck, we introduce the
Error-Uncertainty (EU) Plane, a diagnostic framework that jointly characterizes
the heterogeneous utility of training data across samples and tokens. Guided by
this insight, we propose Quadrant-based Tuning (Q-Tuning), a unified framework
that strategically coordinates sample pruning and token pruning. Q-Tuning
employs a two-stage strategy: first, it performs sample-level triage to retain
examples rich in informative misconceptions or calibration signals; second, it
applies an asymmetric token-pruning policy, using a context-aware scoring
mechanism to trim less salient tokens exclusively from misconception samples
while preserving calibration samples in their entirety. Our method sets a new
state of the art across five diverse benchmarks. Remarkably, on SmolLM2-1.7B,
Q-Tuning achieves a +38\% average improvement over the full-data SFT baseline
using only 12.5\% of the original training data. As the first dynamic pruning
approach to consistently outperform full-data training, Q-Tuning provides a
practical and scalable blueprint for maximizing data utilization in
budget-constrained LLM SFT.