Inférence Diversifiée et Vérification pour un Raisonnement Avancé
Diverse Inference and Verification for Advanced Reasoning
February 14, 2025
Auteurs: Iddo Drori, Gaston Longhitano, Mao Mao, Seunghwan Hyun, Yuke Zhang, Sungjun Park, Zachary Meeks, Xin-Yu Zhang, Ben Segev, Howard Yong, Nakul Verma, Avi Shporer, Alon Amit, Madeleine Udell
cs.AI
Résumé
Les modèles de langage à raisonnement tels qu'OpenAI o1, o3 et DeepSeek R1 ont réalisé des progrès significatifs en mathématiques et en programmation, mais rencontrent des difficultés face à des tâches avancées telles que les problèmes de combinatoire des Olympiades Internationales de Mathématiques (IMO), les énigmes du Corpus d'Abstraction et de Raisonnement (ARC) et les questions de l'examen final de l'humanité (HLE). Nous utilisons une approche d'inférence diversifiée qui combine plusieurs modèles et méthodes au moment du test. Nous constatons que la vérification des problèmes de mathématiques et de code, ainsi que l'échantillonnage par rejet pour d'autres problèmes, sont simples et efficaces. Nous vérifions automatiquement l'exactitude des solutions aux problèmes IMO avec Lean, et les énigmes ARC par du code, et constatons que la méthode du meilleur parmi N répond efficacement aux questions HLE. Notre approche augmente la précision des réponses aux problèmes de combinatoire IMO de 33,3 % à 77,8 %, la précision des questions HLE de 8 % à 37 %, et résout 80 % des énigmes ARC que 948 humains n'ont pas pu résoudre et 26,5 % des énigmes ARC que o3 avec une forte puissance de calcul ne résout pas. Les simulations au moment du test, l'apprentissage par renforcement et le méta-apprentissage avec retour d'inférence améliorent la généralisation en adaptant les représentations graphiques des agents et en variant les invites, le code et les ensembles de données. Notre approche est fiable, robuste et évolutive, et dans l'esprit de la recherche reproductible, nous la rendrons publique dès sa publication.
English
Reasoning LLMs such as OpenAI o1, o3 and DeepSeek R1 have made significant
progress in mathematics and coding, yet find challenging advanced tasks such as
International Mathematical Olympiad (IMO) combinatorics problems, Abstraction
and Reasoning Corpus (ARC) puzzles, and Humanity's Last Exam (HLE) questions.
We use a diverse inference approach that combines multiple models and methods
at test time. We find that verifying mathematics and code problems, and
rejection sampling on other problems is simple and effective. We automatically
verify correctness of solutions to IMO problems by Lean, and ARC puzzles by
code, and find that best-of-N effectively answers HLE questions. Our approach
increases answer accuracy on IMO combinatorics problems from 33.3% to 77.8%,
accuracy on HLE questions from 8% to 37%, and solves 80% of ARC puzzles that
948 humans could not and 26.5% of ARC puzzles that o3 high compute does not.
Test-time simulations, reinforcement learning, and meta-learning with inference
feedback improve generalization by adapting agent graph representations and
varying prompts, code, and datasets. Our approach is reliable, robust, and
scalable, and in the spirit of reproducible research, we will make it publicly
available upon publication.Summary
AI-Generated Summary