Meno è Meglio: Migliorare il Ragionamento dei Modelli Linguistici con un Intervento Minimo al Momento del Test
Less is More: Improving LLM Reasoning with Minimal Test-Time Intervention
October 15, 2025
Autori: Zhen Yang, Mingyang Zhang, Feng Chen, Ganggui Ding, Liang Hou, Xin Tao, Pengfei Wan, Ying-Cong Chen
cs.AI
Abstract
I recenti progressi nei grandi modelli linguistici (LLM) si sono concentrati sul ridimensionamento al momento del test per migliorare il ragionamento attraverso un aumento del calcolo inferenziale, ma spesso a scapito dell'efficienza. Rivediamo il comportamento al momento del test e scopriamo un fenomeno semplice ma poco esplorato: l'incertezza nel ragionamento è altamente localizzata—solo un piccolo sottoinsieme di token ad alta entropia influisce in modo dominante sulla correttezza dell'output. Motivati da ciò, proponiamo l'Intervento Minimo al Momento del Test (MTI), un framework senza addestramento che migliora l'accuratezza e la stabilità del ragionamento con un sovraccarico minimo. MTI include: (i) Intervento CFG selettivo, applicando la guida senza classificatore solo nelle posizioni incerte; e (ii) Guida leggera con prompt negativo, riutilizzando la cache KV del modello principale per approssimare in modo efficiente la decodifica incondizionata. MTI produce miglioramenti consistenti in compiti generali, di programmazione e STEM—ad esempio, un miglioramento medio dell'1,35% su otto benchmark per Qwen3-8B-Base e del 5% su AIME2024 utilizzando Qwen3-32B-Reasoning—mantenendo un'efficienza elevata.
English
Recent progress in large language models (LLMs) has focused on test-time
scaling to improve reasoning via increased inference computation, but often at
the cost of efficiency. We revisit test-time behavior and uncover a simple yet
underexplored phenomenon: reasoning uncertainty is highly localized-only a
small subset of high-entropy tokens dominantly affects output correctness.
Motivated by this, we propose Minimal Test-Time Intervention (MTI), a
training-free framework that enhances reasoning accuracy and stability with
minimal overhead. MTI includes: (i) Selective CFG intervention, applying
classifier-free guidance only at uncertain positions; and (ii) Lightweight
negative-prompt guidance, reusing the main model's KV cache to approximate
unconditional decoding efficiently. MTI yields consistent gains across general,
coding, and STEM tasks-e.g., +1.35% average improvement on eight benchmarks for
Qwen3-8B-Base and +5% on AIME2024 using Qwen3-32B-Reasoning-while remaining
highly efficient.