Moins, c'est plus : Améliorer le raisonnement des LLM avec une intervention minimale au moment du test

papers.abstract

Les progrès récents dans les grands modèles de langage (LLMs) se sont concentrés sur la mise à l'échelle au moment du test pour améliorer le raisonnement via une augmentation du calcul d'inférence, mais souvent au détriment de l'efficacité. Nous revisitons le comportement au moment du test et découvrons un phénomène simple mais peu exploré : l'incertitude du raisonnement est fortement localisée—seul un petit sous-ensemble de tokens à haute entropie influence de manière dominante la justesse de la sortie. Motivés par cela, nous proposons l'Intervention Minimale au Moment du Test (MTI), un cadre sans entraînement qui améliore la précision et la stabilité du raisonnement avec un surcoût minimal. MTI comprend : (i) une intervention sélective CFG, appliquant le guidage sans classificateur uniquement aux positions incertaines ; et (ii) un guidage léger par prompt négatif, réutilisant le cache KV du modèle principal pour approximer efficacement le décodage inconditionnel. MTI apporte des gains constants dans les tâches générales, de codage et STEM—par exemple, une amélioration moyenne de +1,35 % sur huit benchmarks pour Qwen3-8B-Base et de +5 % sur AIME2024 avec Qwen3-32B-Reasoning—tout en restant très efficace.

English

Recent progress in large language models (LLMs) has focused on test-time scaling to improve reasoning via increased inference computation, but often at the cost of efficiency. We revisit test-time behavior and uncover a simple yet underexplored phenomenon: reasoning uncertainty is highly localized-only a small subset of high-entropy tokens dominantly affects output correctness. Motivated by this, we propose Minimal Test-Time Intervention (MTI), a training-free framework that enhances reasoning accuracy and stability with minimal overhead. MTI includes: (i) Selective CFG intervention, applying classifier-free guidance only at uncertain positions; and (ii) Lightweight negative-prompt guidance, reusing the main model's KV cache to approximate unconditional decoding efficiently. MTI yields consistent gains across general, coding, and STEM tasks-e.g., +1.35% average improvement on eight benchmarks for Qwen3-8B-Base and +5% on AIME2024 using Qwen3-32B-Reasoning-while remaining highly efficient.

Moins, c'est plus : Améliorer le raisonnement des LLM avec une intervention minimale au moment du test

Less is More: Improving LLM Reasoning with Minimal Test-Time Intervention

papers.abstract

Support