ChatPaper.aiChatPaper

Los modelos dedicados de retroalimentación y edición potencian la escalabilidad en tiempo de inferencia para tareas de dominio general de naturaleza abierta.

Dedicated Feedback and Edit Models Empower Inference-Time Scaling for Open-Ended General-Domain Tasks

March 6, 2025
Autores: Zhilin Wang, Jiaqi Zeng, Olivier Delalleau, Daniel Egert, Ellie Evans, Hoo-Chang Shin, Felipe Soares, Yi Dong, Oleksii Kuchaiev
cs.AI

Resumen

El escalado en tiempo de inferencia ha sido crucial para el éxito de modelos recientes como OpenAI o1 y DeepSeek R1. Sin embargo, muchas técnicas utilizadas para entrenar modelos para el escalado en tiempo de inferencia requieren que las tareas tengan respuestas que puedan verificarse, lo que limita su aplicación a dominios como matemáticas, programación y razonamiento lógico. Nos inspiramos en cómo los humanos realizan primeros intentos, solicitan retroalimentación detallada de otros y realizan mejoras basadas en dicha retroalimentación en una amplia gama de actividades de final abierto. Con este fin, recopilamos datos y entrenamos modelos dedicados de Retroalimentación y Edición que son capaces de realizar escalado en tiempo de inferencia para tareas generales de final abierto. En nuestra configuración, un modelo genera una respuesta inicial, que recibe retroalimentación de un segundo modelo, la cual es utilizada por un tercer modelo para editar la respuesta. Demostramos que el rendimiento en Arena Hard, un punto de referencia altamente predictivo del Elo de Chatbot Arena, puede mejorarse escalando el número de borradores de respuestas iniciales, retroalimentación efectiva y respuestas editadas. Cuando se escala de manera óptima, nuestra configuración basada en modelos de 70B de la familia Llama 3 puede alcanzar un rendimiento de vanguardia en Arena Hard con 92.7 al 5 de marzo de 2025, superando a OpenAI o1-preview-2024-09-12 con 90.4 y a DeepSeek R1 con 92.3.
English
Inference-Time Scaling has been critical to the success of recent models such as OpenAI o1 and DeepSeek R1. However, many techniques used to train models for inference-time scaling require tasks to have answers that can be verified, limiting their application to domains such as math, coding and logical reasoning. We take inspiration from how humans make first attempts, ask for detailed feedback from others and make improvements based on such feedback across a wide spectrum of open-ended endeavors. To this end, we collect data for and train dedicated Feedback and Edit Models that are capable of performing inference-time scaling for open-ended general-domain tasks. In our setup, one model generates an initial response, which are given feedback by a second model, that are then used by a third model to edit the response. We show that performance on Arena Hard, a benchmark strongly predictive of Chatbot Arena Elo can be boosted by scaling the number of initial response drafts, effective feedback and edited responses. When scaled optimally, our setup based on 70B models from the Llama 3 family can reach SoTA performance on Arena Hard at 92.7 as of 5 Mar 2025, surpassing OpenAI o1-preview-2024-09-12 with 90.4 and DeepSeek R1 with 92.3.

Summary

AI-Generated Summary

PDF74March 7, 2025