Moins, c'est plus : Améliorer le raisonnement des LLM avec une intervention minimale au moment du test
Less is More: Improving LLM Reasoning with Minimal Test-Time Intervention
October 15, 2025
papers.authors: Zhen Yang, Mingyang Zhang, Feng Chen, Ganggui Ding, Liang Hou, Xin Tao, Pengfei Wan, Ying-Cong Chen
cs.AI
papers.abstract
Les progrès récents dans les grands modèles de langage (LLMs) se sont concentrés sur la mise à l'échelle au moment du test pour améliorer le raisonnement via une augmentation du calcul d'inférence, mais souvent au détriment de l'efficacité. Nous revisitons le comportement au moment du test et découvrons un phénomène simple mais peu exploré : l'incertitude du raisonnement est fortement localisée—seul un petit sous-ensemble de tokens à haute entropie influence de manière dominante la justesse de la sortie. Motivés par cela, nous proposons l'Intervention Minimale au Moment du Test (MTI), un cadre sans entraînement qui améliore la précision et la stabilité du raisonnement avec un surcoût minimal. MTI comprend : (i) une intervention sélective CFG, appliquant le guidage sans classificateur uniquement aux positions incertaines ; et (ii) un guidage léger par prompt négatif, réutilisant le cache KV du modèle principal pour approximer efficacement le décodage inconditionnel. MTI apporte des gains constants dans les tâches générales, de codage et STEM—par exemple, une amélioration moyenne de +1,35 % sur huit benchmarks pour Qwen3-8B-Base et de +5 % sur AIME2024 avec Qwen3-32B-Reasoning—tout en restant très efficace.
English
Recent progress in large language models (LLMs) has focused on test-time
scaling to improve reasoning via increased inference computation, but often at
the cost of efficiency. We revisit test-time behavior and uncover a simple yet
underexplored phenomenon: reasoning uncertainty is highly localized-only a
small subset of high-entropy tokens dominantly affects output correctness.
Motivated by this, we propose Minimal Test-Time Intervention (MTI), a
training-free framework that enhances reasoning accuracy and stability with
minimal overhead. MTI includes: (i) Selective CFG intervention, applying
classifier-free guidance only at uncertain positions; and (ii) Lightweight
negative-prompt guidance, reusing the main model's KV cache to approximate
unconditional decoding efficiently. MTI yields consistent gains across general,
coding, and STEM tasks-e.g., +1.35% average improvement on eight benchmarks for
Qwen3-8B-Base and +5% on AIME2024 using Qwen3-32B-Reasoning-while remaining
highly efficient.