T1: Auto-verificação Integrada em Ferramentas para Escalonamento de Computação em Tempo de Teste em Modelos de Linguagem Pequenos
T1: Tool-integrated Self-verification for Test-time Compute Scaling in Small Language Models
April 7, 2025
Autores: Minki Kang, Jongwon Jeong, Jaewoong Cho
cs.AI
Resumo
Estudos recentes demonstraram que o escalonamento de computação em tempo de teste melhora efetivamente o desempenho de modelos de linguagem pequenos (sLMs). No entanto, pesquisas anteriores examinaram principalmente o escalonamento de computação em tempo de teste com um modelo maior adicional como verificador, deixando a autoverificação por sLMs pouco explorada. Neste trabalho, investigamos se sLMs podem confiavelmente autoverificar suas saídas sob escalonamento em tempo de teste. Descobrimos que, mesmo com a destilação de conhecimento de verificadores maiores, os sLMs enfrentam dificuldades em tarefas de verificação que exigem memorização, como cálculos numéricos e verificação de fatos. Para abordar essa limitação, propomos a autoverificação integrada com ferramentas (T1), que delega etapas de verificação que demandam muita memorização para ferramentas externas, como um interpretador de código. Nossa análise teórica mostra que a integração de ferramentas reduz as demandas de memorização e melhora o desempenho do escalonamento em tempo de teste. Experimentos no benchmark MATH demonstram que, com T1, um modelo Llama-3.2 1B sob escalonamento em tempo de teste supera o modelo significativamente maior Llama-3.1 8B. Além disso, T1 generaliza efetivamente tanto para tarefas matemáticas (MATH500) quanto para tarefas intensivas em conhecimento de múltiplos domínios (MMLU-Pro). Nossas descobertas destacam o potencial da integração de ferramentas para melhorar substancialmente as habilidades de autoverificação dos sLMs.
English
Recent studies have demonstrated that test-time compute scaling effectively
improves the performance of small language models (sLMs). However, prior
research has mainly examined test-time compute scaling with an additional
larger model as a verifier, leaving self-verification by sLMs underexplored. In
this work, we investigate whether sLMs can reliably self-verify their outputs
under test-time scaling. We find that even with knowledge distillation from
larger verifiers, sLMs struggle with verification tasks requiring memorization,
such as numerical calculations and fact-checking. To address this limitation,
we propose Tool-integrated self-verification (T1), which delegates
memorization-heavy verification steps to external tools, such as a code
interpreter. Our theoretical analysis shows that tool integration reduces
memorization demands and improves test-time scaling performance. Experiments on
the MATH benchmark demonstrate that, with T1, a Llama-3.2 1B model under
test-time scaling outperforms the significantly larger Llama-3.1 8B model.
Moreover, T1 generalizes effectively to both mathematical (MATH500) and
multi-domain knowledge-intensive tasks (MMLU-Pro). Our findings highlight the
potential of tool integration to substantially improve the self-verification
abilities of sLMs.