T1: Autoverificación integrada en herramientas para la escalabilidad computacional en tiempo de prueba en modelos de lenguaje pequeños
T1: Tool-integrated Self-verification for Test-time Compute Scaling in Small Language Models
April 7, 2025
Autores: Minki Kang, Jongwon Jeong, Jaewoong Cho
cs.AI
Resumen
Estudios recientes han demostrado que el escalado de cómputo en tiempo de prueba mejora efectivamente el rendimiento de los modelos de lenguaje pequeños (sLMs). Sin embargo, investigaciones previas han examinado principalmente el escalado de cómputo en tiempo de prueba con un modelo más grande adicional como verificador, dejando la auto-verificación por parte de los sLMs poco explorada. En este trabajo, investigamos si los sLMs pueden auto-verificar de manera confiable sus salidas bajo escalado en tiempo de prueba. Descubrimos que, incluso con la destilación de conocimiento de verificadores más grandes, los sLMs tienen dificultades con tareas de verificación que requieren memorización, como cálculos numéricos y verificación de hechos. Para abordar esta limitación, proponemos la auto-verificación integrada con herramientas (T1), que delega los pasos de verificación que requieren mucha memorización a herramientas externas, como un intérprete de código. Nuestro análisis teórico muestra que la integración de herramientas reduce las demandas de memorización y mejora el rendimiento del escalado en tiempo de prueba. Los experimentos en el benchmark MATH demuestran que, con T1, un modelo Llama-3.2 1B bajo escalado en tiempo de prueba supera al modelo significativamente más grande Llama-3.1 8B. Además, T1 generaliza efectivamente tanto a tareas matemáticas (MATH500) como a tareas intensivas en conocimiento de múltiples dominios (MMLU-Pro). Nuestros hallazgos resaltan el potencial de la integración de herramientas para mejorar sustancialmente las capacidades de auto-verificación de los sLMs.
English
Recent studies have demonstrated that test-time compute scaling effectively
improves the performance of small language models (sLMs). However, prior
research has mainly examined test-time compute scaling with an additional
larger model as a verifier, leaving self-verification by sLMs underexplored. In
this work, we investigate whether sLMs can reliably self-verify their outputs
under test-time scaling. We find that even with knowledge distillation from
larger verifiers, sLMs struggle with verification tasks requiring memorization,
such as numerical calculations and fact-checking. To address this limitation,
we propose Tool-integrated self-verification (T1), which delegates
memorization-heavy verification steps to external tools, such as a code
interpreter. Our theoretical analysis shows that tool integration reduces
memorization demands and improves test-time scaling performance. Experiments on
the MATH benchmark demonstrate that, with T1, a Llama-3.2 1B model under
test-time scaling outperforms the significantly larger Llama-3.1 8B model.
Moreover, T1 generalizes effectively to both mathematical (MATH500) and
multi-domain knowledge-intensive tasks (MMLU-Pro). Our findings highlight the
potential of tool integration to substantially improve the self-verification
abilities of sLMs.Summary
AI-Generated Summary