Menos é Mais: Melhorando o Raciocínio de LLMs com Intervenção Mínima em Tempo de Teste

Resumo

Os avanços recentes em modelos de linguagem de grande escala (LLMs) têm se concentrado na escalabilidade durante o teste para melhorar o raciocínio por meio do aumento da computação de inferência, mas frequentemente às custas da eficiência. Revisitamos o comportamento durante o teste e descobrimos um fenômeno simples, porém pouco explorado: a incerteza no raciocínio é altamente localizada—apenas um pequeno subconjunto de tokens de alta entropia afeta predominantemente a correção da saída. Motivados por isso, propomos a Intervenção Mínima Durante o Teste (MTI), uma estrutura livre de treinamento que melhora a precisão e a estabilidade do raciocínio com sobrecarga mínima. A MTI inclui: (i) Intervenção Seletiva de CFG, aplicando orientação livre de classificador apenas em posições incertas; e (ii) Orientação Leve de Prompt Negativo, reutilizando o cache KV do modelo principal para aproximar a decodificação incondicional de forma eficiente. A MTI proporciona ganhos consistentes em tarefas gerais, de codificação e STEM—por exemplo, uma melhoria média de +1,35% em oito benchmarks para o Qwen3-8B-Base e +5% no AIME2024 usando o Qwen3-32B-Reasoning—mantendo-se altamente eficiente.

English

Recent progress in large language models (LLMs) has focused on test-time scaling to improve reasoning via increased inference computation, but often at the cost of efficiency. We revisit test-time behavior and uncover a simple yet underexplored phenomenon: reasoning uncertainty is highly localized-only a small subset of high-entropy tokens dominantly affects output correctness. Motivated by this, we propose Minimal Test-Time Intervention (MTI), a training-free framework that enhances reasoning accuracy and stability with minimal overhead. MTI includes: (i) Selective CFG intervention, applying classifier-free guidance only at uncertain positions; and (ii) Lightweight negative-prompt guidance, reusing the main model's KV cache to approximate unconditional decoding efficiently. MTI yields consistent gains across general, coding, and STEM tasks-e.g., +1.35% average improvement on eight benchmarks for Qwen3-8B-Base and +5% on AIME2024 using Qwen3-32B-Reasoning-while remaining highly efficient.

Menos é Mais: Melhorando o Raciocínio de LLMs com Intervenção Mínima em Tempo de Teste

Less is More: Improving LLM Reasoning with Minimal Test-Time Intervention

Resumo

Support