T1: 소형 언어 모델의 테스트 시점 계산 규모 조정을 위한 도구 통합형 자가 검증
T1: Tool-integrated Self-verification for Test-time Compute Scaling in Small Language Models
April 7, 2025
저자: Minki Kang, Jongwon Jeong, Jaewoong Cho
cs.AI
초록
최근 연구들은 테스트 시점 계산 자원 확장(test-time compute scaling)이 소규모 언어 모델(sLMs)의 성능을 효과적으로 향상시킨다는 것을 입증했습니다. 그러나 기존 연구는 주로 더 큰 모델을 검증자(verifier)로 사용하여 테스트 시점 계산 자원 확장을 검토했으며, sLMs의 자체 검증(self-verification)은 충분히 탐구되지 않았습니다. 본 연구에서는 sLMs가 테스트 시점 확장 하에서 자신의 출력을 신뢰할 수 있게 검증할 수 있는지 조사합니다. 우리는 더 큰 검증자로부터의 지식 증류(knowledge distillation)가 있더라도, sLMs가 수치 계산 및 사실 확인과 같은 암기(memorization)가 필요한 검증 작업에 어려움을 겪는다는 것을 발견했습니다. 이러한 한계를 해결하기 위해, 우리는 외부 도구(예: 코드 인터프리터)에 암기 집약적인 검증 단계를 위임하는 도구 통합 자체 검증(Tool-integrated self-verification, T1)을 제안합니다. 이론적 분석에 따르면, 도구 통합은 암기 요구를 줄이고 테스트 시점 확장 성능을 개선합니다. MATH 벤치마크에서의 실험은 T1을 통해 테스트 시점 확장 하에서 Llama-3.2 1B 모델이 훨씬 더 큰 Llama-3.1 8B 모델을 능가한다는 것을 보여줍니다. 또한, T1은 수학적 작업(MATH500)과 다중 도메인 지식 집약적 작업(MMLU-Pro) 모두에 효과적으로 일반화됩니다. 우리의 연구 결과는 도구 통합이 sLMs의 자체 검증 능력을 크게 향상시킬 잠재력을 강조합니다.
English
Recent studies have demonstrated that test-time compute scaling effectively
improves the performance of small language models (sLMs). However, prior
research has mainly examined test-time compute scaling with an additional
larger model as a verifier, leaving self-verification by sLMs underexplored. In
this work, we investigate whether sLMs can reliably self-verify their outputs
under test-time scaling. We find that even with knowledge distillation from
larger verifiers, sLMs struggle with verification tasks requiring memorization,
such as numerical calculations and fact-checking. To address this limitation,
we propose Tool-integrated self-verification (T1), which delegates
memorization-heavy verification steps to external tools, such as a code
interpreter. Our theoretical analysis shows that tool integration reduces
memorization demands and improves test-time scaling performance. Experiments on
the MATH benchmark demonstrate that, with T1, a Llama-3.2 1B model under
test-time scaling outperforms the significantly larger Llama-3.1 8B model.
Moreover, T1 generalizes effectively to both mathematical (MATH500) and
multi-domain knowledge-intensive tasks (MMLU-Pro). Our findings highlight the
potential of tool integration to substantially improve the self-verification
abilities of sLMs.Summary
AI-Generated Summary