ChatPaper.aiChatPaper

刈り込みの賭けに勝つ:効率的な教師ありファインチューニングのためのサンプルとトークンの共同刈り込みに対する統一的なアプローチ

Winning the Pruning Gamble: A Unified Approach to Joint Sample and Token Pruning for Efficient Supervised Fine-Tuning

September 28, 2025
著者: Shaobo Wang, Jiaming Wang, Jiajun Zhang, Cong Wang, Yue Min, Zichen Wen, Fei Huang, Huiqiang Jiang, Junyang Lin, Dayiheng Liu, Linfeng Zhang
cs.AI

要旨

教師ありファインチューニング(SFT)が軽量な後処理ステップから、中規模トレーニングに匹敵する計算集約的なフェーズへと進化するにつれ、限られた予算下で大規模言語モデル(LLM)を整合させるためのデータ効率性が重要となっている。既存のデータプルーニング手法は断片的な設計に悩まされており、サンプルレベルまたはトークンレベルのいずれかで単独で動作し、両次元を同時に最適化することができない。この断絶は重大な非効率性を引き起こす——高価値のサンプルには依然として冗長なトークンが含まれる可能性があり、トークンレベルのプルーニングはしばしば個々の例に埋め込まれた重要な指示や修正信号を破棄してしまう。このボトルネックを解決するため、我々はエラー-不確実性(EU)平面を導入し、サンプルとトークンにわたるトレーニングデータの異質な有用性を同時に特徴付ける診断フレームワークを提案する。この洞察に基づき、サンプルプルーニングとトークンプルーニングを戦略的に調整する統一フレームワークであるQuadrant-based Tuning(Q-Tuning)を提案する。Q-Tuningは二段階の戦略を採用する:まず、情報豊富な誤解やキャリブレーション信号を含むサンプルを保持するためにサンプルレベルのトリアージを行い、次に、非対称なトークンプルーニングポリシーを適用し、コンテキストを意識したスコアリングメカニズムを使用して誤解サンプルから重要度の低いトークンを削除しつつ、キャリブレーションサンプルは完全に保持する。我々の手法は、5つの多様なベンチマークで新たな最先端を確立した。特に、SmolLM2-1.7Bにおいて、Q-Tuningは元のトレーニングデータのわずか12.5%を使用して、フルデータSFTベースラインに対して平均+38%の改善を達成した。フルデータトレーニングを一貫して上回る初の動的プルーニングアプローチとして、Q-Tuningは予算制約下でのLLM SFTにおけるデータ利用を最大化するための実用的でスケーラブルな青写真を提供する。
English
As supervised fine-tuning (SFT) evolves from a lightweight post-training step into a compute-intensive phase rivaling mid-training in scale, data efficiency has become critical for aligning large language models (LLMs) under tight budgets. Existing data pruning methods suffer from a fragmented design: they operate either at the sample level or the token level in isolation, failing to jointly optimize both dimensions. This disconnect leads to significant inefficiencies--high-value samples may still contain redundant tokens, while token-level pruning often discards crucial instructional or corrective signals embedded in individual examples. To address this bottleneck, we introduce the Error-Uncertainty (EU) Plane, a diagnostic framework that jointly characterizes the heterogeneous utility of training data across samples and tokens. Guided by this insight, we propose Quadrant-based Tuning (Q-Tuning), a unified framework that strategically coordinates sample pruning and token pruning. Q-Tuning employs a two-stage strategy: first, it performs sample-level triage to retain examples rich in informative misconceptions or calibration signals; second, it applies an asymmetric token-pruning policy, using a context-aware scoring mechanism to trim less salient tokens exclusively from misconception samples while preserving calibration samples in their entirety. Our method sets a new state of the art across five diverse benchmarks. Remarkably, on SmolLM2-1.7B, Q-Tuning achieves a +38\% average improvement over the full-data SFT baseline using only 12.5\% of the original training data. As the first dynamic pruning approach to consistently outperform full-data training, Q-Tuning provides a practical and scalable blueprint for maximizing data utilization in budget-constrained LLM SFT.
PDF552October 1, 2025