T1 : Auto-vérification intégrée aux outils pour l'ajustement dynamique des ressources de calcul lors des tests dans les petits modèles de langage
T1: Tool-integrated Self-verification for Test-time Compute Scaling in Small Language Models
April 7, 2025
Auteurs: Minki Kang, Jongwon Jeong, Jaewoong Cho
cs.AI
Résumé
Des études récentes ont démontré que l'augmentation des ressources de calcul au moment du test améliore efficacement les performances des petits modèles de langage (sLMs). Cependant, les recherches antérieures ont principalement examiné cette augmentation avec un modèle plus grand servant de vérificateur, laissant l'auto-vérification par les sLMs peu explorée. Dans ce travail, nous étudions si les sLMs peuvent auto-vérifier de manière fiable leurs sorties lors de l'augmentation des ressources de calcul au moment du test. Nous constatons que même avec la distillation de connaissances à partir de vérificateurs plus grands, les sLMs peinent à accomplir des tâches de vérification nécessitant de la mémorisation, telles que les calculs numériques et la vérification des faits. Pour pallier cette limitation, nous proposons l'auto-vérification intégrée à des outils (T1), qui délègue les étapes de vérification exigeant une forte mémorisation à des outils externes, comme un interpréteur de code. Notre analyse théorique montre que l'intégration d'outils réduit les besoins en mémorisation et améliore les performances lors de l'augmentation des ressources de calcul au moment du test. Les expériences sur le benchmark MATH démontrent qu'avec T1, un modèle Llama-3.2 1B sous augmentation des ressources de calcul surpasse le modèle Llama-3.1 8B, pourtant nettement plus grand. De plus, T1 généralise efficacement à la fois aux tâches mathématiques (MATH500) et aux tâches intensives en connaissances multi-domaines (MMLU-Pro). Nos résultats mettent en lumière le potentiel de l'intégration d'outils pour améliorer considérablement les capacités d'auto-vérification des sLMs.
English
Recent studies have demonstrated that test-time compute scaling effectively
improves the performance of small language models (sLMs). However, prior
research has mainly examined test-time compute scaling with an additional
larger model as a verifier, leaving self-verification by sLMs underexplored. In
this work, we investigate whether sLMs can reliably self-verify their outputs
under test-time scaling. We find that even with knowledge distillation from
larger verifiers, sLMs struggle with verification tasks requiring memorization,
such as numerical calculations and fact-checking. To address this limitation,
we propose Tool-integrated self-verification (T1), which delegates
memorization-heavy verification steps to external tools, such as a code
interpreter. Our theoretical analysis shows that tool integration reduces
memorization demands and improves test-time scaling performance. Experiments on
the MATH benchmark demonstrate that, with T1, a Llama-3.2 1B model under
test-time scaling outperforms the significantly larger Llama-3.1 8B model.
Moreover, T1 generalizes effectively to both mathematical (MATH500) and
multi-domain knowledge-intensive tasks (MMLU-Pro). Our findings highlight the
potential of tool integration to substantially improve the self-verification
abilities of sLMs.Summary
AI-Generated Summary