T1: Tool-geïntegreerde zelfverificatie voor schaling van rekenkracht tijdens testen in kleine taalmodellen
T1: Tool-integrated Self-verification for Test-time Compute Scaling in Small Language Models
April 7, 2025
Auteurs: Minki Kang, Jongwon Jeong, Jaewoong Cho
cs.AI
Samenvatting
Recente studies hebben aangetoond dat het schalen van rekentijd tijdens testen effectief de prestaties van kleine taalmodellen (sLMs) verbetert. Eerdere onderzoeken hebben echter voornamelijk gekeken naar het schalen van rekentijd tijdens testen met een extra groter model als verifier, waardoor zelfverificatie door sLMs onderbelicht is gebleven. In dit werk onderzoeken we of sLMs hun uitvoer betrouwbaar kunnen zelfverifiëren onder testtijd-schaling. We constateren dat zelfs met kennisdistillatie van grotere verifiers, sLMs moeite hebben met verificatietaken die memorisatie vereisen, zoals numerieke berekeningen en feitencontrole. Om deze beperking aan te pakken, stellen we Tool-geïntegreerde zelfverificatie (T1) voor, waarbij memorisatie-intensieve verificatiestappen worden gedelegeerd aan externe tools, zoals een code-interpreter. Onze theoretische analyse toont aan dat toolintegratie de memorisatie-eisen vermindert en de prestaties bij testtijd-schaling verbetert. Experimenten op de MATH-benchmark laten zien dat, met T1, een Llama-3.2 1B-model onder testtijd-schaling het aanzienlijk grotere Llama-3.1 8B-model overtreft. Bovendien generaliseert T1 effectief naar zowel wiskundige (MATH500) als multidisciplinaire kennisintensieve taken (MMLU-Pro). Onze bevindingen benadrukken het potentieel van toolintegratie om de zelfverificatievaardigheden van sLMs aanzienlijk te verbeteren.
English
Recent studies have demonstrated that test-time compute scaling effectively
improves the performance of small language models (sLMs). However, prior
research has mainly examined test-time compute scaling with an additional
larger model as a verifier, leaving self-verification by sLMs underexplored. In
this work, we investigate whether sLMs can reliably self-verify their outputs
under test-time scaling. We find that even with knowledge distillation from
larger verifiers, sLMs struggle with verification tasks requiring memorization,
such as numerical calculations and fact-checking. To address this limitation,
we propose Tool-integrated self-verification (T1), which delegates
memorization-heavy verification steps to external tools, such as a code
interpreter. Our theoretical analysis shows that tool integration reduces
memorization demands and improves test-time scaling performance. Experiments on
the MATH benchmark demonstrate that, with T1, a Llama-3.2 1B model under
test-time scaling outperforms the significantly larger Llama-3.1 8B model.
Moreover, T1 generalizes effectively to both mathematical (MATH500) and
multi-domain knowledge-intensive tasks (MMLU-Pro). Our findings highlight the
potential of tool integration to substantially improve the self-verification
abilities of sLMs.Summary
AI-Generated Summary