T1: Autoverificación integrada en herramientas para la escalabilidad computacional en tiempo de prueba en modelos de lenguaje pequeños

Resumen

Estudios recientes han demostrado que el escalado de cómputo en tiempo de prueba mejora efectivamente el rendimiento de los modelos de lenguaje pequeños (sLMs). Sin embargo, investigaciones previas han examinado principalmente el escalado de cómputo en tiempo de prueba con un modelo más grande adicional como verificador, dejando la auto-verificación por parte de los sLMs poco explorada. En este trabajo, investigamos si los sLMs pueden auto-verificar de manera confiable sus salidas bajo escalado en tiempo de prueba. Descubrimos que, incluso con la destilación de conocimiento de verificadores más grandes, los sLMs tienen dificultades con tareas de verificación que requieren memorización, como cálculos numéricos y verificación de hechos. Para abordar esta limitación, proponemos la auto-verificación integrada con herramientas (T1), que delega los pasos de verificación que requieren mucha memorización a herramientas externas, como un intérprete de código. Nuestro análisis teórico muestra que la integración de herramientas reduce las demandas de memorización y mejora el rendimiento del escalado en tiempo de prueba. Los experimentos en el benchmark MATH demuestran que, con T1, un modelo Llama-3.2 1B bajo escalado en tiempo de prueba supera al modelo significativamente más grande Llama-3.1 8B. Además, T1 generaliza efectivamente tanto a tareas matemáticas (MATH500) como a tareas intensivas en conocimiento de múltiples dominios (MMLU-Pro). Nuestros hallazgos resaltan el potencial de la integración de herramientas para mejorar sustancialmente las capacidades de auto-verificación de los sLMs.

English

Recent studies have demonstrated that test-time compute scaling effectively improves the performance of small language models (sLMs). However, prior research has mainly examined test-time compute scaling with an additional larger model as a verifier, leaving self-verification by sLMs underexplored. In this work, we investigate whether sLMs can reliably self-verify their outputs under test-time scaling. We find that even with knowledge distillation from larger verifiers, sLMs struggle with verification tasks requiring memorization, such as numerical calculations and fact-checking. To address this limitation, we propose Tool-integrated self-verification (T1), which delegates memorization-heavy verification steps to external tools, such as a code interpreter. Our theoretical analysis shows that tool integration reduces memorization demands and improves test-time scaling performance. Experiments on the MATH benchmark demonstrate that, with T1, a Llama-3.2 1B model under test-time scaling outperforms the significantly larger Llama-3.1 8B model. Moreover, T1 generalizes effectively to both mathematical (MATH500) and multi-domain knowledge-intensive tasks (MMLU-Pro). Our findings highlight the potential of tool integration to substantially improve the self-verification abilities of sLMs.

T1: Autoverificación integrada en herramientas para la escalabilidad computacional en tiempo de prueba en modelos de lenguaje pequeños

T1: Tool-integrated Self-verification for Test-time Compute Scaling in Small Language Models

Resumen

Support