Inférence Diversifiée et Vérification pour un Raisonnement Avancé

papers.abstract

Les modèles de langage à raisonnement tels qu'OpenAI o1, o3 et DeepSeek R1 ont réalisé des progrès significatifs en mathématiques et en programmation, mais rencontrent des difficultés face à des tâches avancées telles que les problèmes de combinatoire des Olympiades Internationales de Mathématiques (IMO), les énigmes du Corpus d'Abstraction et de Raisonnement (ARC) et les questions de l'examen final de l'humanité (HLE). Nous utilisons une approche d'inférence diversifiée qui combine plusieurs modèles et méthodes au moment du test. Nous constatons que la vérification des problèmes de mathématiques et de code, ainsi que l'échantillonnage par rejet pour d'autres problèmes, sont simples et efficaces. Nous vérifions automatiquement l'exactitude des solutions aux problèmes IMO avec Lean, et les énigmes ARC par du code, et constatons que la méthode du meilleur parmi N répond efficacement aux questions HLE. Notre approche augmente la précision des réponses aux problèmes de combinatoire IMO de 33,3 % à 77,8 %, la précision des questions HLE de 8 % à 37 %, et résout 80 % des énigmes ARC que 948 humains n'ont pas pu résoudre et 26,5 % des énigmes ARC que o3 avec une forte puissance de calcul ne résout pas. Les simulations au moment du test, l'apprentissage par renforcement et le méta-apprentissage avec retour d'inférence améliorent la généralisation en adaptant les représentations graphiques des agents et en variant les invites, le code et les ensembles de données. Notre approche est fiable, robuste et évolutive, et dans l'esprit de la recherche reproductible, nous la rendrons publique dès sa publication.

English

Reasoning LLMs such as OpenAI o1, o3 and DeepSeek R1 have made significant progress in mathematics and coding, yet find challenging advanced tasks such as International Mathematical Olympiad (IMO) combinatorics problems, Abstraction and Reasoning Corpus (ARC) puzzles, and Humanity's Last Exam (HLE) questions. We use a diverse inference approach that combines multiple models and methods at test time. We find that verifying mathematics and code problems, and rejection sampling on other problems is simple and effective. We automatically verify correctness of solutions to IMO problems by Lean, and ARC puzzles by code, and find that best-of-N effectively answers HLE questions. Our approach increases answer accuracy on IMO combinatorics problems from 33.3% to 77.8%, accuracy on HLE questions from 8% to 37%, and solves 80% of ARC puzzles that 948 humans could not and 26.5% of ARC puzzles that o3 high compute does not. Test-time simulations, reinforcement learning, and meta-learning with inference feedback improve generalization by adapting agent graph representations and varying prompts, code, and datasets. Our approach is reliable, robust, and scalable, and in the spirit of reproducible research, we will make it publicly available upon publication.

Inférence Diversifiée et Vérification pour un Raisonnement Avancé

Diverse Inference and Verification for Advanced Reasoning

papers.abstract

Support