자기 보정을 통한 효율적인 테스트 타임 스케일링
Efficient Test-Time Scaling via Self-Calibration
February 25, 2025
저자: Chengsong Huang, Langlin Huang, Jixuan Leng, Jiacheng Liu, Jiaxin Huang
cs.AI
초록
테스트 시간 계산량을 증가시키는 것은 대규모 언어 모델(LLM)의 응답 품질을 향상시키는 직관적인 접근 방식입니다. Best-of-N 샘플링과 다수결 투표를 통한 Self-Consistency는 간단하면서도 효과적인 방법이지만, 각 질문의 복잡도와 상관없이 고정된 수의 샘플링 응답을 요구합니다. 이는 더 간단한 질문에 대해 불필요한 계산을 초래하거나, 더 어려운 질문에 대해 충분한 탐색을 하지 못하게 할 수 있습니다. 본 연구에서는 모델 응답의 신뢰도를 활용하여 테스트 시간 스케일링의 효율성을 개선할 수 있다고 주장합니다. 그러나 LLM은 과도하게 자신감을 보이며 신뢰할 수 없는 신뢰도 추정을 제공하는 것으로 알려져 있습니다. 이러한 한계를 해결하기 위해, 우리는 Self-Consistency에서 도출된 신뢰도를 모델 자체에 증류하는 Self-Calibration을 도입했습니다. 이를 통해 테스트 시간에 단일 순방향 전파만으로도 신뢰할 수 있는 신뢰도 추정이 가능해졌습니다. 그런 다음, 다양한 난이도의 질문을 처리하기 위해 신뢰도 기반의 효율적인 테스트 시간 스케일링 방법을 설계했습니다. 이는 Best-of-N을 위한 Early-Stopping와 보정된 신뢰도를 활용한 Self-Consistency 등을 포함합니다. 세 가지 LLM과 여섯 개의 데이터셋에서 진행한 실험은 우리의 접근 방식의 효과를 입증했습니다. 특히, Best-of-N에 신뢰도 기반 Early Stopping을 적용했을 때, 16개의 응답 샘플 예산으로 MathQA 정확도가 81.0에서 83.6으로 향상되었으며, 이는 추론 시간에 신뢰도 기반 샘플링 전략의 효용성을 보여줍니다.
English
Increasing test-time computation is a straightforward approach to enhancing
the quality of responses in Large Language Models (LLMs). While Best-of-N
sampling and Self-Consistency with majority voting are simple and effective,
they require a fixed number of sampling responses for each query, regardless of
its complexity. This could result in wasted computation for simpler questions
and insufficient exploration for more challenging ones. In this work, we argue
that model confidence of responses can be used for improving the efficiency of
test-time scaling. Unfortunately, LLMs are known to be overconfident and
provide unreliable confidence estimation. To address this limitation, we
introduce Self-Calibration by distilling Self-Consistency-derived confidence
into the model itself. This enables reliable confidence estimation at test time
with one forward pass. We then design confidence-based efficient test-time
scaling methods to handle queries of various difficulty, such as Early-Stopping
for Best-of-N and Self-Consistency with calibrated confidence. Experiments on
three LLMs across six datasets demonstrate the effectiveness of our approach.
Specifically, applying confidence-based Early Stopping to Best-of-N improves
MathQA accuracy from 81.0 to 83.6 with a sample budget of 16 responses,
indicating the efficacy of confidence-based sampling strategy at inference
time.Summary
AI-Generated Summary