Inferencia y Verificación Diversa para Razonamiento Avanzado
Diverse Inference and Verification for Advanced Reasoning
February 14, 2025
Autores: Iddo Drori, Gaston Longhitano, Mao Mao, Seunghwan Hyun, Yuke Zhang, Sungjun Park, Zachary Meeks, Xin-Yu Zhang, Ben Segev, Howard Yong, Nakul Verma, Avi Shporer, Alon Amit, Madeleine Udell
cs.AI
Resumen
Los modelos de lenguaje de razonamiento (LLMs) como OpenAI o1, o3 y DeepSeek R1 han logrado avances significativos en matemáticas y programación, pero aún encuentran desafiantes tareas avanzadas como los problemas de combinatoria de la Olimpiada Internacional de Matemáticas (IMO), los rompecabezas del Corpus de Abstracción y Razonamiento (ARC) y las preguntas del Examen Final de la Humanidad (HLE). Utilizamos un enfoque de inferencia diverso que combina múltiples modelos y métodos en tiempo de prueba. Descubrimos que verificar problemas de matemáticas y código, y realizar muestreo por rechazo en otros problemas, es simple y efectivo. Verificamos automáticamente la corrección de las soluciones a problemas de IMO mediante Lean, y los rompecabezas de ARC mediante código, y encontramos que el método de "mejor de N" responde efectivamente a las preguntas de HLE. Nuestro enfoque aumenta la precisión de las respuestas en problemas de combinatoria de IMO del 33.3% al 77.8%, la precisión en preguntas de HLE del 8% al 37%, y resuelve el 80% de los rompecabezas de ARC que 948 humanos no pudieron resolver y el 26.5% de los rompecabezas de ARC que el modelo o3 con alto poder computacional no resuelve. Las simulaciones en tiempo de prueba, el aprendizaje por refuerzo y el metaaprendizaje con retroalimentación de inferencia mejoran la generalización al adaptar las representaciones gráficas del agente y variar los prompts, el código y los conjuntos de datos. Nuestro enfoque es confiable, robusto y escalable, y en el espíritu de la investigación reproducible, lo haremos públicamente disponible tras su publicación.
English
Reasoning LLMs such as OpenAI o1, o3 and DeepSeek R1 have made significant
progress in mathematics and coding, yet find challenging advanced tasks such as
International Mathematical Olympiad (IMO) combinatorics problems, Abstraction
and Reasoning Corpus (ARC) puzzles, and Humanity's Last Exam (HLE) questions.
We use a diverse inference approach that combines multiple models and methods
at test time. We find that verifying mathematics and code problems, and
rejection sampling on other problems is simple and effective. We automatically
verify correctness of solutions to IMO problems by Lean, and ARC puzzles by
code, and find that best-of-N effectively answers HLE questions. Our approach
increases answer accuracy on IMO combinatorics problems from 33.3% to 77.8%,
accuracy on HLE questions from 8% to 37%, and solves 80% of ARC puzzles that
948 humans could not and 26.5% of ARC puzzles that o3 high compute does not.
Test-time simulations, reinforcement learning, and meta-learning with inference
feedback improve generalization by adapting agent graph representations and
varying prompts, code, and datasets. Our approach is reliable, robust, and
scalable, and in the spirit of reproducible research, we will make it publicly
available upon publication.Summary
AI-Generated Summary