ChatPaper.aiChatPaper

Toegewijde feedback- en bewerkingsmodellen faciliteren schaalbaarheid tijdens inferentie voor open-eindige taken in algemene domeinen.

Dedicated Feedback and Edit Models Empower Inference-Time Scaling for Open-Ended General-Domain Tasks

March 6, 2025
Auteurs: Zhilin Wang, Jiaqi Zeng, Olivier Delalleau, Daniel Egert, Ellie Evans, Hoo-Chang Shin, Felipe Soares, Yi Dong, Oleksii Kuchaiev
cs.AI

Samenvatting

Inference-Time Scaling is van cruciaal belang geweest voor het succes van recente modellen zoals OpenAI o1 en DeepSeek R1. Veel technieken die worden gebruikt om modellen te trainen voor inference-time scaling vereisen echter dat taken antwoorden hebben die kunnen worden geverifieerd, wat hun toepassing beperkt tot domeinen zoals wiskunde, programmeren en logisch redeneren. Wij laten ons inspireren door hoe mensen eerste pogingen doen, gedetailleerde feedback vragen aan anderen en verbeteringen aanbrengen op basis van dergelijke feedback over een breed spectrum van open-einde activiteiten. Hiertoe verzamelen wij data en trainen wij specifieke Feedback- en Edit-modellen die in staat zijn om inference-time scaling uit te voeren voor open-einde taken in algemene domeinen. In onze opzet genereert één model een initieel antwoord, dat feedback krijgt van een tweede model, waarna een derde model het antwoord bewerkt. Wij tonen aan dat de prestaties op Arena Hard, een benchmark die sterk voorspellend is voor Chatbot Arena Elo, kunnen worden verbeterd door het aantal initiële antwoordconcepten, effectieve feedback en bewerkte antwoorden op te schalen. Wanneer optimaal geschaald, kan onze opzet gebaseerd op 70B-modellen uit de Llama 3-familie een state-of-the-art prestatie bereiken op Arena Hard met 92,7 vanaf 5 maart 2025, waarmee OpenAI o1-preview-2024-09-12 met 90,4 en DeepSeek R1 met 92,3 worden overtroffen.
English
Inference-Time Scaling has been critical to the success of recent models such as OpenAI o1 and DeepSeek R1. However, many techniques used to train models for inference-time scaling require tasks to have answers that can be verified, limiting their application to domains such as math, coding and logical reasoning. We take inspiration from how humans make first attempts, ask for detailed feedback from others and make improvements based on such feedback across a wide spectrum of open-ended endeavors. To this end, we collect data for and train dedicated Feedback and Edit Models that are capable of performing inference-time scaling for open-ended general-domain tasks. In our setup, one model generates an initial response, which are given feedback by a second model, that are then used by a third model to edit the response. We show that performance on Arena Hard, a benchmark strongly predictive of Chatbot Arena Elo can be boosted by scaling the number of initial response drafts, effective feedback and edited responses. When scaled optimally, our setup based on 70B models from the Llama 3 family can reach SoTA performance on Arena Hard at 92.7 as of 5 Mar 2025, surpassing OpenAI o1-preview-2024-09-12 with 90.4 and DeepSeek R1 with 92.3.

Summary

AI-Generated Summary

PDF74March 7, 2025