T1: Werkzeugintegrierte Selbstüberprüfung zur Skalierung der Rechenleistung zur Testzeit in kleinen Sprachmodellen

papers.abstract

Aktuelle Studien haben gezeigt, dass die Skalierung der Rechenleistung zur Testzeit die Leistung kleiner Sprachmodelle (sLMs) effektiv verbessert. Bisherige Forschungen haben jedoch hauptsächlich die Skalierung der Rechenleistung zur Testzeit mit einem zusätzlichen größeren Modell als Verifizierer untersucht, wodurch die Selbstverifizierung durch sLMs weitgehend unerforscht blieb. In dieser Arbeit untersuchen wir, ob sLMs ihre Ausgaben unter Testzeit-Skalierung zuverlässig selbst verifizieren können. Wir stellen fest, dass sLMs selbst mit Wissensdistillation von größeren Verifizierern Schwierigkeiten bei Verifizierungsaufgaben haben, die Auswendiglernen erfordern, wie z. B. numerische Berechnungen und Faktenprüfungen. Um diese Einschränkung zu überwinden, schlagen wir die Tool-integrierte Selbstverifizierung (T1) vor, die speicherintensive Verifizierungsschritte an externe Tools wie einen Code-Interpreter delegiert. Unsere theoretische Analyse zeigt, dass die Tool-Integration die Anforderungen an das Auswendiglernen reduziert und die Leistung bei der Testzeit-Skalierung verbessert. Experimente auf dem MATH-Benchmark demonstrieren, dass mit T1 ein Llama-3.2 1B-Modell unter Testzeit-Skalierung das deutlich größere Llama-3.1 8B-Modell übertrifft. Darüber hinaus verallgemeinert T1 effektiv auf sowohl mathematische (MATH500) als auch multidisziplinäre, wissensintensive Aufgaben (MMLU-Pro). Unsere Ergebnisse unterstreichen das Potenzial der Tool-Integration, die Selbstverifizierungsfähigkeiten von sLMs erheblich zu verbessern.

English

Recent studies have demonstrated that test-time compute scaling effectively improves the performance of small language models (sLMs). However, prior research has mainly examined test-time compute scaling with an additional larger model as a verifier, leaving self-verification by sLMs underexplored. In this work, we investigate whether sLMs can reliably self-verify their outputs under test-time scaling. We find that even with knowledge distillation from larger verifiers, sLMs struggle with verification tasks requiring memorization, such as numerical calculations and fact-checking. To address this limitation, we propose Tool-integrated self-verification (T1), which delegates memorization-heavy verification steps to external tools, such as a code interpreter. Our theoretical analysis shows that tool integration reduces memorization demands and improves test-time scaling performance. Experiments on the MATH benchmark demonstrate that, with T1, a Llama-3.2 1B model under test-time scaling outperforms the significantly larger Llama-3.1 8B model. Moreover, T1 generalizes effectively to both mathematical (MATH500) and multi-domain knowledge-intensive tasks (MMLU-Pro). Our findings highlight the potential of tool integration to substantially improve the self-verification abilities of sLMs.

T1: Werkzeugintegrierte Selbstüberprüfung zur Skalierung der Rechenleistung zur Testzeit in kleinen Sprachmodellen

T1: Tool-integrated Self-verification for Test-time Compute Scaling in Small Language Models

papers.abstract

Support