Meno è Meglio: Migliorare il Ragionamento dei Modelli Linguistici con un Intervento Minimo al Momento del Test

Abstract

I recenti progressi nei grandi modelli linguistici (LLM) si sono concentrati sul ridimensionamento al momento del test per migliorare il ragionamento attraverso un aumento del calcolo inferenziale, ma spesso a scapito dell'efficienza. Rivediamo il comportamento al momento del test e scopriamo un fenomeno semplice ma poco esplorato: l'incertezza nel ragionamento è altamente localizzata—solo un piccolo sottoinsieme di token ad alta entropia influisce in modo dominante sulla correttezza dell'output. Motivati da ciò, proponiamo l'Intervento Minimo al Momento del Test (MTI), un framework senza addestramento che migliora l'accuratezza e la stabilità del ragionamento con un sovraccarico minimo. MTI include: (i) Intervento CFG selettivo, applicando la guida senza classificatore solo nelle posizioni incerte; e (ii) Guida leggera con prompt negativo, riutilizzando la cache KV del modello principale per approssimare in modo efficiente la decodifica incondizionata. MTI produce miglioramenti consistenti in compiti generali, di programmazione e STEM—ad esempio, un miglioramento medio dell'1,35% su otto benchmark per Qwen3-8B-Base e del 5% su AIME2024 utilizzando Qwen3-32B-Reasoning—mantenendo un'efficienza elevata.

English

Recent progress in large language models (LLMs) has focused on test-time scaling to improve reasoning via increased inference computation, but often at the cost of efficiency. We revisit test-time behavior and uncover a simple yet underexplored phenomenon: reasoning uncertainty is highly localized-only a small subset of high-entropy tokens dominantly affects output correctness. Motivated by this, we propose Minimal Test-Time Intervention (MTI), a training-free framework that enhances reasoning accuracy and stability with minimal overhead. MTI includes: (i) Selective CFG intervention, applying classifier-free guidance only at uncertain positions; and (ii) Lightweight negative-prompt guidance, reusing the main model's KV cache to approximate unconditional decoding efficiently. MTI yields consistent gains across general, coding, and STEM tasks-e.g., +1.35% average improvement on eight benchmarks for Qwen3-8B-Base and +5% on AIME2024 using Qwen3-32B-Reasoning-while remaining highly efficient.

Meno è Meglio: Migliorare il Ragionamento dei Modelli Linguistici con un Intervento Minimo al Momento del Test

Less is More: Improving LLM Reasoning with Minimal Test-Time Intervention

Abstract

Support