간단한 테스트 시간 스케일링s1: Simple test-time scaling
테스트 시간 스케일링은 성능을 향상시키기 위해 추가 테스트 시간 컴퓨팅을 사용하는 언어 모델링에 대한 유망한 새로운 접근 방식입니다. 최근 OpenAI의 o1 모델은 이 능력을 보여주었지만 방법론을 공개하지 않아 많은 복제 노력이 이루어졌습니다. 우리는 테스트 시간 스케일링과 강력한 추론 성능을 달성하기 위한 가장 간단한 접근 방식을 찾고 있습니다. 먼저, 우리는 난이도, 다양성 및 품질을 의존하는 추론 트레이스와 함께 1,000개의 질문으로 구성된 작은 데이터셋 s1K를 선별합니다. 두 번째로, 모델이 종료하려고 할 때 "기다리기"를 여러 번 추가하여 모델의 생성을 연장하거나 강제로 종료시켜 테스트 시간 컴퓨팅을 제어하기 위한 예산 강제 기법을 개발합니다. 이는 모델이 답변을 다시 확인하도록 유도하여 종종 잘못된 추론 단계를 수정할 수 있습니다. s1K에서 Qwen2.5-32B-Instruct 언어 모델을 지도 미세 조정한 후 예산 강제 기법을 적용하면, 우리의 모델 s1은 경쟁 수학 문제에서 o1-preview보다 최대 27% (MATH 및 AIME24)까지 우수한 성과를 보입니다. 더불어, 예산 강제 기법을 사용하여 s1을 확장하면 테스트 시간 개입 없이 성능을 예측할 수 있습니다: AIME24에서 50%에서 57%까지. 우리의 모델, 데이터 및 코드는 https://github.com/simplescaling/s1에서 오픈 소스로 제공됩니다.