T1: Auto-verificação Integrada em Ferramentas para Escalonamento de Computação em Tempo de Teste em Modelos de Linguagem Pequenos

Resumo

Estudos recentes demonstraram que o escalonamento de computação em tempo de teste melhora efetivamente o desempenho de modelos de linguagem pequenos (sLMs). No entanto, pesquisas anteriores examinaram principalmente o escalonamento de computação em tempo de teste com um modelo maior adicional como verificador, deixando a autoverificação por sLMs pouco explorada. Neste trabalho, investigamos se sLMs podem confiavelmente autoverificar suas saídas sob escalonamento em tempo de teste. Descobrimos que, mesmo com a destilação de conhecimento de verificadores maiores, os sLMs enfrentam dificuldades em tarefas de verificação que exigem memorização, como cálculos numéricos e verificação de fatos. Para abordar essa limitação, propomos a autoverificação integrada com ferramentas (T1), que delega etapas de verificação que demandam muita memorização para ferramentas externas, como um interpretador de código. Nossa análise teórica mostra que a integração de ferramentas reduz as demandas de memorização e melhora o desempenho do escalonamento em tempo de teste. Experimentos no benchmark MATH demonstram que, com T1, um modelo Llama-3.2 1B sob escalonamento em tempo de teste supera o modelo significativamente maior Llama-3.1 8B. Além disso, T1 generaliza efetivamente tanto para tarefas matemáticas (MATH500) quanto para tarefas intensivas em conhecimento de múltiplos domínios (MMLU-Pro). Nossas descobertas destacam o potencial da integração de ferramentas para melhorar substancialmente as habilidades de autoverificação dos sLMs.

English

Recent studies have demonstrated that test-time compute scaling effectively improves the performance of small language models (sLMs). However, prior research has mainly examined test-time compute scaling with an additional larger model as a verifier, leaving self-verification by sLMs underexplored. In this work, we investigate whether sLMs can reliably self-verify their outputs under test-time scaling. We find that even with knowledge distillation from larger verifiers, sLMs struggle with verification tasks requiring memorization, such as numerical calculations and fact-checking. To address this limitation, we propose Tool-integrated self-verification (T1), which delegates memorization-heavy verification steps to external tools, such as a code interpreter. Our theoretical analysis shows that tool integration reduces memorization demands and improves test-time scaling performance. Experiments on the MATH benchmark demonstrate that, with T1, a Llama-3.2 1B model under test-time scaling outperforms the significantly larger Llama-3.1 8B model. Moreover, T1 generalizes effectively to both mathematical (MATH500) and multi-domain knowledge-intensive tasks (MMLU-Pro). Our findings highlight the potential of tool integration to substantially improve the self-verification abilities of sLMs.

T1: Auto-verificação Integrada em Ferramentas para Escalonamento de Computação em Tempo de Teste em Modelos de Linguagem Pequenos

T1: Tool-integrated Self-verification for Test-time Compute Scaling in Small Language Models

Resumo

Support