Inferenza Diversificata e Verifica per il Ragionamento Avanzato

Abstract

I modelli di ragionamento linguistico (LLM) come OpenAI o1, o3 e DeepSeek R1 hanno compiuto progressi significativi in matematica e programmazione, ma incontrano difficoltà in compiti avanzati come i problemi di combinatorica delle Olimpiadi Internazionali di Matematica (IMO), i rompicapi del Corpus di Astrazione e Ragionamento (ARC) e le domande dell'Esame Finale dell'Umanità (HLE). Utilizziamo un approccio di inferenza diversificato che combina più modelli e metodi al momento del test. Riteniamo che la verifica di problemi matematici e di codice, insieme al campionamento di rifiuto per altri problemi, sia semplice ed efficace. Verifichiamo automaticamente la correttezza delle soluzioni ai problemi IMO utilizzando Lean e i rompicapi ARC tramite codice, e scopriamo che il metodo "best-of-N" risponde efficacemente alle domande HLE. Il nostro approccio aumenta l'accuratezza delle risposte ai problemi di combinatorica IMO dal 33,3% al 77,8%, l'accuratezza delle domande HLE dall'8% al 37%, e risolve l'80% dei rompicapi ARC che 948 umani non sono riusciti a risolvere e il 26,5% dei rompicapi ARC che o3 con elevate risorse computazionali non risolve. Le simulazioni al momento del test, l'apprendimento per rinforzo e il meta-apprendimento con feedback di inferenza migliorano la generalizzazione adattando le rappresentazioni grafiche degli agenti e variando prompt, codice e dataset. Il nostro approccio è affidabile, robusto e scalabile, e nello spirito della ricerca riproducibile, lo renderemo pubblicamente disponibile dopo la pubblicazione.

English

Reasoning LLMs such as OpenAI o1, o3 and DeepSeek R1 have made significant progress in mathematics and coding, yet find challenging advanced tasks such as International Mathematical Olympiad (IMO) combinatorics problems, Abstraction and Reasoning Corpus (ARC) puzzles, and Humanity's Last Exam (HLE) questions. We use a diverse inference approach that combines multiple models and methods at test time. We find that verifying mathematics and code problems, and rejection sampling on other problems is simple and effective. We automatically verify correctness of solutions to IMO problems by Lean, and ARC puzzles by code, and find that best-of-N effectively answers HLE questions. Our approach increases answer accuracy on IMO combinatorics problems from 33.3% to 77.8%, accuracy on HLE questions from 8% to 37%, and solves 80% of ARC puzzles that 948 humans could not and 26.5% of ARC puzzles that o3 high compute does not. Test-time simulations, reinforcement learning, and meta-learning with inference feedback improve generalization by adapting agent graph representations and varying prompts, code, and datasets. Our approach is reliable, robust, and scalable, and in the spirit of reproducible research, we will make it publicly available upon publication.

Inferenza Diversificata e Verifica per il Ragionamento Avanzato

Diverse Inference and Verification for Advanced Reasoning

Abstract

Support