Inferencia y Verificación Diversa para Razonamiento Avanzado

Resumen

Los modelos de lenguaje de razonamiento (LLMs) como OpenAI o1, o3 y DeepSeek R1 han logrado avances significativos en matemáticas y programación, pero aún encuentran desafiantes tareas avanzadas como los problemas de combinatoria de la Olimpiada Internacional de Matemáticas (IMO), los rompecabezas del Corpus de Abstracción y Razonamiento (ARC) y las preguntas del Examen Final de la Humanidad (HLE). Utilizamos un enfoque de inferencia diverso que combina múltiples modelos y métodos en tiempo de prueba. Descubrimos que verificar problemas de matemáticas y código, y realizar muestreo por rechazo en otros problemas, es simple y efectivo. Verificamos automáticamente la corrección de las soluciones a problemas de IMO mediante Lean, y los rompecabezas de ARC mediante código, y encontramos que el método de "mejor de N" responde efectivamente a las preguntas de HLE. Nuestro enfoque aumenta la precisión de las respuestas en problemas de combinatoria de IMO del 33.3% al 77.8%, la precisión en preguntas de HLE del 8% al 37%, y resuelve el 80% de los rompecabezas de ARC que 948 humanos no pudieron resolver y el 26.5% de los rompecabezas de ARC que el modelo o3 con alto poder computacional no resuelve. Las simulaciones en tiempo de prueba, el aprendizaje por refuerzo y el metaaprendizaje con retroalimentación de inferencia mejoran la generalización al adaptar las representaciones gráficas del agente y variar los prompts, el código y los conjuntos de datos. Nuestro enfoque es confiable, robusto y escalable, y en el espíritu de la investigación reproducible, lo haremos públicamente disponible tras su publicación.

English

Reasoning LLMs such as OpenAI o1, o3 and DeepSeek R1 have made significant progress in mathematics and coding, yet find challenging advanced tasks such as International Mathematical Olympiad (IMO) combinatorics problems, Abstraction and Reasoning Corpus (ARC) puzzles, and Humanity's Last Exam (HLE) questions. We use a diverse inference approach that combines multiple models and methods at test time. We find that verifying mathematics and code problems, and rejection sampling on other problems is simple and effective. We automatically verify correctness of solutions to IMO problems by Lean, and ARC puzzles by code, and find that best-of-N effectively answers HLE questions. Our approach increases answer accuracy on IMO combinatorics problems from 33.3% to 77.8%, accuracy on HLE questions from 8% to 37%, and solves 80% of ARC puzzles that 948 humans could not and 26.5% of ARC puzzles that o3 high compute does not. Test-time simulations, reinforcement learning, and meta-learning with inference feedback improve generalization by adapting agent graph representations and varying prompts, code, and datasets. Our approach is reliable, robust, and scalable, and in the spirit of reproducible research, we will make it publicly available upon publication.

Inferencia y Verificación Diversa para Razonamiento Avanzado

Diverse Inference and Verification for Advanced Reasoning

Resumen

Support