Menos es Más: Mejorando el Razonamiento de los LLM con Intervención Mínima en Tiempo de Prueba
Less is More: Improving LLM Reasoning with Minimal Test-Time Intervention
October 15, 2025
Autores: Zhen Yang, Mingyang Zhang, Feng Chen, Ganggui Ding, Liang Hou, Xin Tao, Pengfei Wan, Ying-Cong Chen
cs.AI
Resumen
Los avances recientes en los modelos de lenguaje de gran escala (LLMs) se han centrado en el escalado durante el tiempo de prueba para mejorar el razonamiento mediante un mayor cómputo en la inferencia, aunque a menudo a costa de la eficiencia. Revisamos el comportamiento durante el tiempo de prueba y descubrimos un fenómeno simple pero poco explorado: la incertidumbre en el razonamiento está altamente localizada—solo un pequeño subconjunto de tokens de alta entropía afecta predominantemente la corrección de la salida. Motivados por esto, proponemos la Intervención Mínima en Tiempo de Prueba (MTI), un marco libre de entrenamiento que mejora la precisión y estabilidad del razonamiento con un sobrecosto mínimo. MTI incluye: (i) Intervención selectiva con CFG, aplicando guía libre de clasificadores solo en posiciones inciertas; y (ii) Guía ligera con indicaciones negativas, reutilizando la caché KV del modelo principal para aproximar la decodificación incondicional de manera eficiente. MTI produce mejoras consistentes en tareas generales, de programación y STEM—por ejemplo, un +1.35% de mejora promedio en ocho benchmarks para Qwen3-8B-Base y un +5% en AIME2024 usando Qwen3-32B-Reasoning—manteniéndose altamente eficiente.
English
Recent progress in large language models (LLMs) has focused on test-time
scaling to improve reasoning via increased inference computation, but often at
the cost of efficiency. We revisit test-time behavior and uncover a simple yet
underexplored phenomenon: reasoning uncertainty is highly localized-only a
small subset of high-entropy tokens dominantly affects output correctness.
Motivated by this, we propose Minimal Test-Time Intervention (MTI), a
training-free framework that enhances reasoning accuracy and stability with
minimal overhead. MTI includes: (i) Selective CFG intervention, applying
classifier-free guidance only at uncertain positions; and (ii) Lightweight
negative-prompt guidance, reusing the main model's KV cache to approximate
unconditional decoding efficiently. MTI yields consistent gains across general,
coding, and STEM tasks-e.g., +1.35% average improvement on eight benchmarks for
Qwen3-8B-Base and +5% on AIME2024 using Qwen3-32B-Reasoning-while remaining
highly efficient.