T1: Werkzeugintegrierte Selbstüberprüfung zur Skalierung der Rechenleistung zur Testzeit in kleinen Sprachmodellen
T1: Tool-integrated Self-verification for Test-time Compute Scaling in Small Language Models
April 7, 2025
Autoren: Minki Kang, Jongwon Jeong, Jaewoong Cho
cs.AI
Zusammenfassung
Aktuelle Studien haben gezeigt, dass die Skalierung der Rechenleistung zur Testzeit die Leistung kleiner Sprachmodelle (sLMs) effektiv verbessert. Bisherige Forschungen haben jedoch hauptsächlich die Skalierung der Rechenleistung zur Testzeit mit einem zusätzlichen größeren Modell als Verifizierer untersucht, wodurch die Selbstverifizierung durch sLMs weitgehend unerforscht blieb. In dieser Arbeit untersuchen wir, ob sLMs ihre Ausgaben unter Testzeit-Skalierung zuverlässig selbst verifizieren können. Wir stellen fest, dass sLMs selbst mit Wissensdistillation von größeren Verifizierern Schwierigkeiten bei Verifizierungsaufgaben haben, die Auswendiglernen erfordern, wie z. B. numerische Berechnungen und Faktenprüfungen. Um diese Einschränkung zu überwinden, schlagen wir die Tool-integrierte Selbstverifizierung (T1) vor, die speicherintensive Verifizierungsschritte an externe Tools wie einen Code-Interpreter delegiert. Unsere theoretische Analyse zeigt, dass die Tool-Integration die Anforderungen an das Auswendiglernen reduziert und die Leistung bei der Testzeit-Skalierung verbessert. Experimente auf dem MATH-Benchmark demonstrieren, dass mit T1 ein Llama-3.2 1B-Modell unter Testzeit-Skalierung das deutlich größere Llama-3.1 8B-Modell übertrifft. Darüber hinaus verallgemeinert T1 effektiv auf sowohl mathematische (MATH500) als auch multidisziplinäre, wissensintensive Aufgaben (MMLU-Pro). Unsere Ergebnisse unterstreichen das Potenzial der Tool-Integration, die Selbstverifizierungsfähigkeiten von sLMs erheblich zu verbessern.
English
Recent studies have demonstrated that test-time compute scaling effectively
improves the performance of small language models (sLMs). However, prior
research has mainly examined test-time compute scaling with an additional
larger model as a verifier, leaving self-verification by sLMs underexplored. In
this work, we investigate whether sLMs can reliably self-verify their outputs
under test-time scaling. We find that even with knowledge distillation from
larger verifiers, sLMs struggle with verification tasks requiring memorization,
such as numerical calculations and fact-checking. To address this limitation,
we propose Tool-integrated self-verification (T1), which delegates
memorization-heavy verification steps to external tools, such as a code
interpreter. Our theoretical analysis shows that tool integration reduces
memorization demands and improves test-time scaling performance. Experiments on
the MATH benchmark demonstrate that, with T1, a Llama-3.2 1B model under
test-time scaling outperforms the significantly larger Llama-3.1 8B model.
Moreover, T1 generalizes effectively to both mathematical (MATH500) and
multi-domain knowledge-intensive tasks (MMLU-Pro). Our findings highlight the
potential of tool integration to substantially improve the self-verification
abilities of sLMs.Summary
AI-Generated Summary