그게 당신의 최종 답변인가요? 테스트 시간 스케일링이 선택적 질문 응답을 개선합니다Is That Your Final Answer? Test-Time Scaling Improves Selective Question
Answering
대규모 언어 모델의 테스트 시점 계산 자원 확장은 추론 벤치마크에서 인상적인 성능을 보여주고 있습니다. 그러나 기존의 테스트 시점 확장 평가는 추론 시스템이 제공된 모든 질문에 대해 항상 답변을 해야 한다는 강한 가정을 하고 있습니다. 이는 모델이 자신의 답변에 대해 얼마나 확신을 가지고 있는지, 그리고 항상 응답을 제공하는 것이 적절한지에 대한 고려를 간과하고 있습니다. 이러한 문제를 해결하기 위해, 우리는 추론 과정에서 신뢰도 점수를 추출하여 모델 응답에 대한 임계값 설정을 적용했습니다. 우리는 추론 시점에 계산 예산을 증가시키는 것이 모델이 더 많은 질문에 올바르게 답변하는 데 도움을 줄 뿐만 아니라, 올바른 응답에 대한 신뢰도를 높인다는 것을 발견했습니다. 또한, 우리는 평가 과정에서 제로 리스크 응답의 현재 패러다임을 비제로 리스크 수준의 응답 설정으로 확장하고, 이러한 설정 하에서 평가 결과를 보고하기 위한 방법론을 제안합니다.