Menos es Más: Mejorando el Razonamiento de los LLM con Intervención Mínima en Tiempo de Prueba

Resumen

Los avances recientes en los modelos de lenguaje de gran escala (LLMs) se han centrado en el escalado durante el tiempo de prueba para mejorar el razonamiento mediante un mayor cómputo en la inferencia, aunque a menudo a costa de la eficiencia. Revisamos el comportamiento durante el tiempo de prueba y descubrimos un fenómeno simple pero poco explorado: la incertidumbre en el razonamiento está altamente localizada—solo un pequeño subconjunto de tokens de alta entropía afecta predominantemente la corrección de la salida. Motivados por esto, proponemos la Intervención Mínima en Tiempo de Prueba (MTI), un marco libre de entrenamiento que mejora la precisión y estabilidad del razonamiento con un sobrecosto mínimo. MTI incluye: (i) Intervención selectiva con CFG, aplicando guía libre de clasificadores solo en posiciones inciertas; y (ii) Guía ligera con indicaciones negativas, reutilizando la caché KV del modelo principal para aproximar la decodificación incondicional de manera eficiente. MTI produce mejoras consistentes en tareas generales, de programación y STEM—por ejemplo, un +1.35% de mejora promedio en ocho benchmarks para Qwen3-8B-Base y un +5% en AIME2024 usando Qwen3-32B-Reasoning—manteniéndose altamente eficiente.

English

Recent progress in large language models (LLMs) has focused on test-time scaling to improve reasoning via increased inference computation, but often at the cost of efficiency. We revisit test-time behavior and uncover a simple yet underexplored phenomenon: reasoning uncertainty is highly localized-only a small subset of high-entropy tokens dominantly affects output correctness. Motivated by this, we propose Minimal Test-Time Intervention (MTI), a training-free framework that enhances reasoning accuracy and stability with minimal overhead. MTI includes: (i) Selective CFG intervention, applying classifier-free guidance only at uncertain positions; and (ii) Lightweight negative-prompt guidance, reusing the main model's KV cache to approximate unconditional decoding efficiently. MTI yields consistent gains across general, coding, and STEM tasks-e.g., +1.35% average improvement on eight benchmarks for Qwen3-8B-Base and +5% on AIME2024 using Qwen3-32B-Reasoning-while remaining highly efficient.

Menos es Más: Mejorando el Razonamiento de los LLM con Intervención Mínima en Tiempo de Prueba

Less is More: Improving LLM Reasoning with Minimal Test-Time Intervention

Resumen

Support