Menos é Mais: Melhorando o Raciocínio de LLMs com Intervenção Mínima em Tempo de Teste
Less is More: Improving LLM Reasoning with Minimal Test-Time Intervention
October 15, 2025
Autores: Zhen Yang, Mingyang Zhang, Feng Chen, Ganggui Ding, Liang Hou, Xin Tao, Pengfei Wan, Ying-Cong Chen
cs.AI
Resumo
Os avanços recentes em modelos de linguagem de grande escala (LLMs) têm se concentrado na escalabilidade durante o teste para melhorar o raciocínio por meio do aumento da computação de inferência, mas frequentemente às custas da eficiência. Revisitamos o comportamento durante o teste e descobrimos um fenômeno simples, porém pouco explorado: a incerteza no raciocínio é altamente localizada—apenas um pequeno subconjunto de tokens de alta entropia afeta predominantemente a correção da saída. Motivados por isso, propomos a Intervenção Mínima Durante o Teste (MTI), uma estrutura livre de treinamento que melhora a precisão e a estabilidade do raciocínio com sobrecarga mínima. A MTI inclui: (i) Intervenção Seletiva de CFG, aplicando orientação livre de classificador apenas em posições incertas; e (ii) Orientação Leve de Prompt Negativo, reutilizando o cache KV do modelo principal para aproximar a decodificação incondicional de forma eficiente. A MTI proporciona ganhos consistentes em tarefas gerais, de codificação e STEM—por exemplo, uma melhoria média de +1,35% em oito benchmarks para o Qwen3-8B-Base e +5% no AIME2024 usando o Qwen3-32B-Reasoning—mantendo-se altamente eficiente.
English
Recent progress in large language models (LLMs) has focused on test-time
scaling to improve reasoning via increased inference computation, but often at
the cost of efficiency. We revisit test-time behavior and uncover a simple yet
underexplored phenomenon: reasoning uncertainty is highly localized-only a
small subset of high-entropy tokens dominantly affects output correctness.
Motivated by this, we propose Minimal Test-Time Intervention (MTI), a
training-free framework that enhances reasoning accuracy and stability with
minimal overhead. MTI includes: (i) Selective CFG intervention, applying
classifier-free guidance only at uncertain positions; and (ii) Lightweight
negative-prompt guidance, reusing the main model's KV cache to approximate
unconditional decoding efficiently. MTI yields consistent gains across general,
coding, and STEM tasks-e.g., +1.35% average improvement on eight benchmarks for
Qwen3-8B-Base and +5% on AIME2024 using Qwen3-32B-Reasoning-while remaining
highly efficient.