Toegewijde feedback- en bewerkingsmodellen faciliteren schaalbaarheid tijdens inferentie voor open-eindige taken in algemene domeinen.
Dedicated Feedback and Edit Models Empower Inference-Time Scaling for Open-Ended General-Domain Tasks
March 6, 2025
Auteurs: Zhilin Wang, Jiaqi Zeng, Olivier Delalleau, Daniel Egert, Ellie Evans, Hoo-Chang Shin, Felipe Soares, Yi Dong, Oleksii Kuchaiev
cs.AI
Samenvatting
Inference-Time Scaling is van cruciaal belang geweest voor het succes van recente modellen zoals OpenAI o1 en DeepSeek R1. Veel technieken die worden gebruikt om modellen te trainen voor inference-time scaling vereisen echter dat taken antwoorden hebben die kunnen worden geverifieerd, wat hun toepassing beperkt tot domeinen zoals wiskunde, programmeren en logisch redeneren. Wij laten ons inspireren door hoe mensen eerste pogingen doen, gedetailleerde feedback vragen aan anderen en verbeteringen aanbrengen op basis van dergelijke feedback over een breed spectrum van open-einde activiteiten. Hiertoe verzamelen wij data en trainen wij specifieke Feedback- en Edit-modellen die in staat zijn om inference-time scaling uit te voeren voor open-einde taken in algemene domeinen. In onze opzet genereert één model een initieel antwoord, dat feedback krijgt van een tweede model, waarna een derde model het antwoord bewerkt. Wij tonen aan dat de prestaties op Arena Hard, een benchmark die sterk voorspellend is voor Chatbot Arena Elo, kunnen worden verbeterd door het aantal initiële antwoordconcepten, effectieve feedback en bewerkte antwoorden op te schalen. Wanneer optimaal geschaald, kan onze opzet gebaseerd op 70B-modellen uit de Llama 3-familie een state-of-the-art prestatie bereiken op Arena Hard met 92,7 vanaf 5 maart 2025, waarmee OpenAI o1-preview-2024-09-12 met 90,4 en DeepSeek R1 met 92,3 worden overtroffen.
English
Inference-Time Scaling has been critical to the success of recent models such
as OpenAI o1 and DeepSeek R1. However, many techniques used to train models for
inference-time scaling require tasks to have answers that can be verified,
limiting their application to domains such as math, coding and logical
reasoning. We take inspiration from how humans make first attempts, ask for
detailed feedback from others and make improvements based on such feedback
across a wide spectrum of open-ended endeavors. To this end, we collect data
for and train dedicated Feedback and Edit Models that are capable of performing
inference-time scaling for open-ended general-domain tasks. In our setup, one
model generates an initial response, which are given feedback by a second
model, that are then used by a third model to edit the response. We show that
performance on Arena Hard, a benchmark strongly predictive of Chatbot Arena Elo
can be boosted by scaling the number of initial response drafts, effective
feedback and edited responses. When scaled optimally, our setup based on 70B
models from the Llama 3 family can reach SoTA performance on Arena Hard at 92.7
as of 5 Mar 2025, surpassing OpenAI o1-preview-2024-09-12 with 90.4 and
DeepSeek R1 with 92.3.Summary
AI-Generated Summary