Vencendo a Aposta da Poda: Uma Abordagem Unificada para a Poda Conjunta de Amostras e Tokens no Ajuste Fino Supervisionado Eficiente

Resumo

À medida que o ajuste fino supervisionado (SFT) evolui de uma etapa leve pós-treinamento para uma fase intensiva em computação que rivaliza em escala com o meio do treinamento, a eficiência de dados tornou-se crucial para alinhar grandes modelos de linguagem (LLMs) sob orçamentos restritos. Os métodos existentes de poda de dados sofrem de um design fragmentado: eles operam isoladamente no nível de amostra ou no nível de token, falhando em otimizar conjuntamente ambas as dimensões. Essa desconexão leva a ineficiências significativas—amostras de alto valor ainda podem conter tokens redundantes, enquanto a poda em nível de token frequentemente descarta sinais instrucionais ou corretivos cruciais embutidos em exemplos individuais. Para abordar esse gargalo, introduzimos o Plano de Erro-Incerteza (EU), uma estrutura de diagnóstico que caracteriza conjuntamente a utilidade heterogênea dos dados de treinamento em amostras e tokens. Guiados por essa visão, propomos o Ajuste Baseado em Quadrantes (Q-Tuning), uma estrutura unificada que coordena estrategicamente a poda de amostras e a poda de tokens. O Q-Tuning emprega uma estratégia de duas etapas: primeiro, realiza uma triagem em nível de amostra para reter exemplos ricos em equívocos informativos ou sinais de calibração; segundo, aplica uma política assimétrica de poda de tokens, usando um mecanismo de pontuação contextual para eliminar tokens menos salientes exclusivamente de amostras de equívocos, enquanto preserva amostras de calibração em sua totalidade. Nosso método estabelece um novo estado da arte em cinco benchmarks diversos. Notavelmente, no SmolLM2-1.7B, o Q-Tuning alcança uma melhoria média de +38\% em relação à linha de base de SFT com dados completos, utilizando apenas 12,5\% dos dados de treinamento originais. Como a primeira abordagem de poda dinâmica a superar consistentemente o treinamento com dados completos, o Q-Tuning fornece um plano prático e escalável para maximizar a utilização de dados em SFT de LLMs com orçamento limitado.

English

As supervised fine-tuning (SFT) evolves from a lightweight post-training step into a compute-intensive phase rivaling mid-training in scale, data efficiency has become critical for aligning large language models (LLMs) under tight budgets. Existing data pruning methods suffer from a fragmented design: they operate either at the sample level or the token level in isolation, failing to jointly optimize both dimensions. This disconnect leads to significant inefficiencies--high-value samples may still contain redundant tokens, while token-level pruning often discards crucial instructional or corrective signals embedded in individual examples. To address this bottleneck, we introduce the Error-Uncertainty (EU) Plane, a diagnostic framework that jointly characterizes the heterogeneous utility of training data across samples and tokens. Guided by this insight, we propose Quadrant-based Tuning (Q-Tuning), a unified framework that strategically coordinates sample pruning and token pruning. Q-Tuning employs a two-stage strategy: first, it performs sample-level triage to retain examples rich in informative misconceptions or calibration signals; second, it applies an asymmetric token-pruning policy, using a context-aware scoring mechanism to trim less salient tokens exclusively from misconception samples while preserving calibration samples in their entirety. Our method sets a new state of the art across five diverse benchmarks. Remarkably, on SmolLM2-1.7B, Q-Tuning achieves a +38\% average improvement over the full-data SFT baseline using only 12.5\% of the original training data. As the first dynamic pruning approach to consistently outperform full-data training, Q-Tuning provides a practical and scalable blueprint for maximizing data utilization in budget-constrained LLM SFT.

Vencendo a Aposta da Poda: Uma Abordagem Unificada para a Poda Conjunta de Amostras e Tokens no Ajuste Fino Supervisionado Eficiente

Winning the Pruning Gamble: A Unified Approach to Joint Sample and Token Pruning for Efficient Supervised Fine-Tuning

Resumo

Support