Vencendo a Aposta da Poda: Uma Abordagem Unificada para a Poda Conjunta de Amostras e Tokens no Ajuste Fino Supervisionado Eficiente
Winning the Pruning Gamble: A Unified Approach to Joint Sample and Token Pruning for Efficient Supervised Fine-Tuning
September 28, 2025
Autores: Shaobo Wang, Jiaming Wang, Jiajun Zhang, Cong Wang, Yue Min, Zichen Wen, Fei Huang, Huiqiang Jiang, Junyang Lin, Dayiheng Liu, Linfeng Zhang
cs.AI
Resumo
À medida que o ajuste fino supervisionado (SFT) evolui de uma etapa leve pós-treinamento para uma fase intensiva em computação que rivaliza em escala com o meio do treinamento, a eficiência de dados tornou-se crucial para alinhar grandes modelos de linguagem (LLMs) sob orçamentos restritos. Os métodos existentes de poda de dados sofrem de um design fragmentado: eles operam isoladamente no nível de amostra ou no nível de token, falhando em otimizar conjuntamente ambas as dimensões. Essa desconexão leva a ineficiências significativas—amostras de alto valor ainda podem conter tokens redundantes, enquanto a poda em nível de token frequentemente descarta sinais instrucionais ou corretivos cruciais embutidos em exemplos individuais. Para abordar esse gargalo, introduzimos o Plano de Erro-Incerteza (EU), uma estrutura de diagnóstico que caracteriza conjuntamente a utilidade heterogênea dos dados de treinamento em amostras e tokens. Guiados por essa visão, propomos o Ajuste Baseado em Quadrantes (Q-Tuning), uma estrutura unificada que coordena estrategicamente a poda de amostras e a poda de tokens. O Q-Tuning emprega uma estratégia de duas etapas: primeiro, realiza uma triagem em nível de amostra para reter exemplos ricos em equívocos informativos ou sinais de calibração; segundo, aplica uma política assimétrica de poda de tokens, usando um mecanismo de pontuação contextual para eliminar tokens menos salientes exclusivamente de amostras de equívocos, enquanto preserva amostras de calibração em sua totalidade. Nosso método estabelece um novo estado da arte em cinco benchmarks diversos. Notavelmente, no SmolLM2-1.7B, o Q-Tuning alcança uma melhoria média de +38\% em relação à linha de base de SFT com dados completos, utilizando apenas 12,5\% dos dados de treinamento originais. Como a primeira abordagem de poda dinâmica a superar consistentemente o treinamento com dados completos, o Q-Tuning fornece um plano prático e escalável para maximizar a utilização de dados em SFT de LLMs com orçamento limitado.
English
As supervised fine-tuning (SFT) evolves from a lightweight post-training step
into a compute-intensive phase rivaling mid-training in scale, data efficiency
has become critical for aligning large language models (LLMs) under tight
budgets. Existing data pruning methods suffer from a fragmented design: they
operate either at the sample level or the token level in isolation, failing to
jointly optimize both dimensions. This disconnect leads to significant
inefficiencies--high-value samples may still contain redundant tokens, while
token-level pruning often discards crucial instructional or corrective signals
embedded in individual examples. To address this bottleneck, we introduce the
Error-Uncertainty (EU) Plane, a diagnostic framework that jointly characterizes
the heterogeneous utility of training data across samples and tokens. Guided by
this insight, we propose Quadrant-based Tuning (Q-Tuning), a unified framework
that strategically coordinates sample pruning and token pruning. Q-Tuning
employs a two-stage strategy: first, it performs sample-level triage to retain
examples rich in informative misconceptions or calibration signals; second, it
applies an asymmetric token-pruning policy, using a context-aware scoring
mechanism to trim less salient tokens exclusively from misconception samples
while preserving calibration samples in their entirety. Our method sets a new
state of the art across five diverse benchmarks. Remarkably, on SmolLM2-1.7B,
Q-Tuning achieves a +38\% average improvement over the full-data SFT baseline
using only 12.5\% of the original training data. As the first dynamic pruning
approach to consistently outperform full-data training, Q-Tuning provides a
practical and scalable blueprint for maximizing data utilization in
budget-constrained LLM SFT.