Modelos de Lenguaje Grandes Mejorando Modelos de Lenguaje Grandes: Descubrimiento Agéntico para Escalado en Tiempo de Prueba
LLMs Improving LLMs: Agentic Discovery for Test-Time Scaling
May 8, 2026
Autores: Tong Zheng, Haolin Liu, Chengsong Huang, Huiwen Bao, Sheng Zhang, Rui Liu, Runpeng Dai, Ruibo Chen, Chenxi Liu, Tianyi Xiong, Xidong Wu, Hongming Zhang, Heng Huang
cs.AI
Resumen
El escalado en tiempo de prueba (TTS, por sus siglas en inglés) se ha convertido en un enfoque efectivo para mejorar el rendimiento de los modelos de lenguaje a gran escala mediante la asignación de cómputo adicional durante la inferencia. Sin embargo, las estrategias de TTS existentes están en gran medida diseñadas manualmente: los investigadores crean patrones de razonamiento y ajustan heurísticas de manera intuitiva, dejando gran parte del espacio de asignación de cómputo sin explorar. Proponemos un marco basado en entornos, AutoTTS, que cambia lo que los investigadores diseñan: desde heurísticas de TTS individuales hasta entornos donde las estrategias de TTS pueden descubrirse automáticamente. La clave de AutoTTS radica en la construcción del entorno: el entorno de descubrimiento debe hacer que el espacio de control sea manejable y proporcionar retroalimentación económica y frecuente para la búsqueda de TTS. Como instanciación concreta, formulamos el TTS de anchura-profundidad como una síntesis de control sobre trayectorias de razonamiento previamente recolectadas y señales de sondeo, donde los controladores deciden cuándo ramificar, continuar, sondear, podar o detener, y pueden evaluarse de manera económica sin llamadas repetidas al modelo de lenguaje. Además, introducimos una parametrización beta para hacer que la búsqueda sea manejable y una retroalimentación detallada de trazas de ejecución para mejorar la eficiencia del descubrimiento, ayudando al agente a diagnosticar por qué falla un programa de TTS. Los experimentos en benchmarks de razonamiento matemático muestran que las estrategias descubiertas mejoran el equilibrio entre precisión y costo en comparación con líneas base diseñadas manualmente. Las estrategias descubiertas generalizan a benchmarks no vistos y escalas de modelos, mientras que todo el proceso de descubrimiento cuesta solo $39.9 y 160 minutos. Nuestros datos y código estarán disponibles en https://github.com/zhengkid/AutoTTS.
English
Test-time scaling (TTS) has become an effective approach for improving large language model performance by allocating additional computation during inference. However, existing TTS strategies are largely hand-crafted: researchers manually design reasoning patterns and tune heuristics by intuition, leaving much of the computation-allocation space unexplored. We propose an environment-driven framework, AutoTTS, that changes what researchers design: from individual TTS heuristics to environments where TTS strategies can be discovered automatically. The key to AutoTTS lies in environment construction: the discovery environment must make the control space tractable and provide cheap, frequent feedback for TTS search. As a concrete instantiation, we formulate width--depth TTS as controller synthesis over pre-collected reasoning trajectories and probe signals, where controllers decide when to branch, continue, probe, prune, or stop and can be evaluated cheaply without repeated LLM calls. We further introduce beta parameterization to make the search tractable and fine-grained execution trace feedback to improve discovery efficiency by helping the agent diagnose why a TTS program fails. Experiments on mathematical reasoning benchmarks show that the discovered strategies improve the overall accuracy--cost tradeoff over strong manually designed baselines. The discovered strategies generalize to held-out benchmarks and model scales, while the entire discovery costs only $39.9 and 160 minutes. Our data, and code will be open-source at https://github.com/zhengkid/AutoTTS.