전용 피드백 및 편집 모델을 통해 개방형 일반 도메인 작업에서 추론 시 확장성이 강화됩니다.
Dedicated Feedback and Edit Models Empower Inference-Time Scaling for Open-Ended General-Domain Tasks
March 6, 2025
저자: Zhilin Wang, Jiaqi Zeng, Olivier Delalleau, Daniel Egert, Ellie Evans, Hoo-Chang Shin, Felipe Soares, Yi Dong, Oleksii Kuchaiev
cs.AI
초록
추론 시간 스케일링은 OpenAI o1과 DeepSeek R1과 같은 최신 모델의 성공에 중요한 역할을 해왔습니다. 그러나 추론 시간 스케일링을 위해 모델을 훈련시키는 데 사용되는 많은 기술들은 검증 가능한 답변이 필요한 작업에 제한되어, 수학, 코딩, 논리적 추론과 같은 특정 도메인에만 적용될 수 있습니다. 우리는 인간이 첫 시도를 하고, 다른 사람들로부터 상세한 피드백을 요청하며, 그러한 피드백을 바탕으로 개선을 이루는 방식에서 영감을 얻었습니다. 이를 위해, 우리는 개방형 일반 도메인 작업에 대해 추론 시간 스케일링을 수행할 수 있는 전용 피드백 및 편집 모델을 위한 데이터를 수집하고 훈련시켰습니다. 우리의 설정에서는 하나의 모델이 초기 응답을 생성하고, 두 번째 모델이 피드백을 제공하며, 세 번째 모델이 그 피드백을 사용하여 응답을 편집합니다. 우리는 Chatbot Arena Elo를 강력하게 예측하는 벤치마크인 Arena Hard에서의 성능이 초기 응답 초안의 수, 효과적인 피드백, 그리고 편집된 응답의 스케일링을 통해 향상될 수 있음을 보여줍니다. 최적의 스케일링을 적용했을 때, Llama 3 패밀리의 70B 모델을 기반으로 한 우리의 설정은 2025년 3월 5일 기준으로 Arena Hard에서 92.7의 SoTA 성능에 도달할 수 있으며, 이는 90.4의 OpenAI o1-preview-2024-09-12와 92.3의 DeepSeek R1을 능가합니다.
English
Inference-Time Scaling has been critical to the success of recent models such
as OpenAI o1 and DeepSeek R1. However, many techniques used to train models for
inference-time scaling require tasks to have answers that can be verified,
limiting their application to domains such as math, coding and logical
reasoning. We take inspiration from how humans make first attempts, ask for
detailed feedback from others and make improvements based on such feedback
across a wide spectrum of open-ended endeavors. To this end, we collect data
for and train dedicated Feedback and Edit Models that are capable of performing
inference-time scaling for open-ended general-domain tasks. In our setup, one
model generates an initial response, which are given feedback by a second
model, that are then used by a third model to edit the response. We show that
performance on Arena Hard, a benchmark strongly predictive of Chatbot Arena Elo
can be boosted by scaling the number of initial response drafts, effective
feedback and edited responses. When scaled optimally, our setup based on 70B
models from the Llama 3 family can reach SoTA performance on Arena Hard at 92.7
as of 5 Mar 2025, surpassing OpenAI o1-preview-2024-09-12 with 90.4 and
DeepSeek R1 with 92.3.Summary
AI-Generated Summary