Inferenza Diversificata e Verifica per il Ragionamento Avanzato
Diverse Inference and Verification for Advanced Reasoning
February 14, 2025
Autori: Iddo Drori, Gaston Longhitano, Mao Mao, Seunghwan Hyun, Yuke Zhang, Sungjun Park, Zachary Meeks, Xin-Yu Zhang, Ben Segev, Howard Yong, Nakul Verma, Avi Shporer, Alon Amit, Madeleine Udell
cs.AI
Abstract
I modelli di ragionamento linguistico (LLM) come OpenAI o1, o3 e DeepSeek R1 hanno compiuto progressi significativi in matematica e programmazione, ma incontrano difficoltà in compiti avanzati come i problemi di combinatorica delle Olimpiadi Internazionali di Matematica (IMO), i rompicapi del Corpus di Astrazione e Ragionamento (ARC) e le domande dell'Esame Finale dell'Umanità (HLE). Utilizziamo un approccio di inferenza diversificato che combina più modelli e metodi al momento del test. Riteniamo che la verifica di problemi matematici e di codice, insieme al campionamento di rifiuto per altri problemi, sia semplice ed efficace. Verifichiamo automaticamente la correttezza delle soluzioni ai problemi IMO utilizzando Lean e i rompicapi ARC tramite codice, e scopriamo che il metodo "best-of-N" risponde efficacemente alle domande HLE. Il nostro approccio aumenta l'accuratezza delle risposte ai problemi di combinatorica IMO dal 33,3% al 77,8%, l'accuratezza delle domande HLE dall'8% al 37%, e risolve l'80% dei rompicapi ARC che 948 umani non sono riusciti a risolvere e il 26,5% dei rompicapi ARC che o3 con elevate risorse computazionali non risolve. Le simulazioni al momento del test, l'apprendimento per rinforzo e il meta-apprendimento con feedback di inferenza migliorano la generalizzazione adattando le rappresentazioni grafiche degli agenti e variando prompt, codice e dataset. Il nostro approccio è affidabile, robusto e scalabile, e nello spirito della ricerca riproducibile, lo renderemo pubblicamente disponibile dopo la pubblicazione.
English
Reasoning LLMs such as OpenAI o1, o3 and DeepSeek R1 have made significant
progress in mathematics and coding, yet find challenging advanced tasks such as
International Mathematical Olympiad (IMO) combinatorics problems, Abstraction
and Reasoning Corpus (ARC) puzzles, and Humanity's Last Exam (HLE) questions.
We use a diverse inference approach that combines multiple models and methods
at test time. We find that verifying mathematics and code problems, and
rejection sampling on other problems is simple and effective. We automatically
verify correctness of solutions to IMO problems by Lean, and ARC puzzles by
code, and find that best-of-N effectively answers HLE questions. Our approach
increases answer accuracy on IMO combinatorics problems from 33.3% to 77.8%,
accuracy on HLE questions from 8% to 37%, and solves 80% of ARC puzzles that
948 humans could not and 26.5% of ARC puzzles that o3 high compute does not.
Test-time simulations, reinforcement learning, and meta-learning with inference
feedback improve generalization by adapting agent graph representations and
varying prompts, code, and datasets. Our approach is reliable, robust, and
scalable, and in the spirit of reproducible research, we will make it publicly
available upon publication.Summary
AI-Generated Summary