Xolver : Raisonnement Multi-Agent avec Apprentissage Expérientiel Holistique, Tel une Équipe Olympique
Xolver: Multi-Agent Reasoning with Holistic Experience Learning Just Like an Olympiad Team
June 17, 2025
Auteurs: Md Tanzib Hosain, Salman Rahman, Md Kishor Morol, Md Rizwan Parvez
cs.AI
Résumé
Malgré des progrès impressionnants en matière de raisonnement complexe, les grands modèles de langage (LLM) actuels fonctionnent généralement de manière isolée - traitant chaque problème comme une tentative indépendante, sans accumuler ou intégrer de connaissances expérientielles. En revanche, les experts en résolution de problèmes - tels que les équipes des Olympiades ou des concours de programmation - tirent parti d'une riche tapisserie d'expériences : absorbant le mentorat des coachs, développant une intuition à partir de problèmes passés, exploitant la connaissance de l'utilisation des outils et de la fonctionnalité des bibliothèques, adaptant les stratégies en fonction de l'expertise et des expériences de leurs pairs, affinant continuellement leur raisonnement par essais et erreurs, et apprenant d'autres problèmes connexes même pendant la compétition. Nous présentons Xolver, un cadre de raisonnement multi-agent sans entraînement qui équipe un LLM boîte noire d'une mémoire persistante et évolutive d'expérience holistique. Xolver intègre diverses modalités d'expérience, y compris la récupération externe et auto-référentielle, l'utilisation d'outils, les interactions collaboratives, l'évaluation pilotée par les agents, et l'affinement itératif. En apprenant des stratégies pertinentes, des fragments de code et des modèles de raisonnement abstraits au moment de l'inférence, Xolver évite de générer des solutions à partir de zéro - marquant une transition de l'inférence isolée vers des agents de langage conscients de l'expérience. Construit sur des modèles à poids ouvert et propriétaires, Xolver surpasse systématiquement les agents de raisonnement spécialisés. Même avec des architectures légères (par exemple, QWQ-32B), il dépasse souvent des modèles avancés, y compris Qwen3-235B, Gemini 2.5 Pro, o3, et o4-mini-high. Avec o3-mini-high, il atteint de nouveaux meilleurs résultats sur GSM8K (98,1 %), AIME'24 (94,4 %), AIME'25 (93,7 %), Math-500 (99,8 %), et LiveCodeBench-V5 (91,6 %) - mettant en évidence l'apprentissage d'expérience holistique comme une étape clé vers des agents généralistes capables d'un raisonnement de niveau expert. Le code et les données sont disponibles à l'adresse https://kagnlp.github.io/xolver.github.io/.
English
Despite impressive progress on complex reasoning, current large language
models (LLMs) typically operate in isolation - treating each problem as an
independent attempt, without accumulating or integrating experiential
knowledge. In contrast, expert problem solvers - such as Olympiad or
programming contest teams - leverage a rich tapestry of experiences: absorbing
mentorship from coaches, developing intuition from past problems, leveraging
knowledge of tool usage and library functionality, adapting strategies based on
the expertise and experiences of peers, continuously refining their reasoning
through trial and error, and learning from other related problems even during
competition. We introduce Xolver, a training-free multi-agent reasoning
framework that equips a black-box LLM with a persistent, evolving memory of
holistic experience. Xolver integrates diverse experience modalities, including
external and self-retrieval, tool use, collaborative interactions, agent-driven
evaluation, and iterative refinement. By learning from relevant strategies,
code fragments, and abstract reasoning patterns at inference time, Xolver
avoids generating solutions from scratch - marking a transition from isolated
inference toward experience-aware language agents. Built on both open-weight
and proprietary models, Xolver consistently outperforms specialized reasoning
agents. Even with lightweight backbones (e.g., QWQ-32B), it often surpasses
advanced models including Qwen3-235B, Gemini 2.5 Pro, o3, and o4-mini-high.
With o3-mini-high, it achieves new best results on GSM8K (98.1%), AIME'24
(94.4%), AIME'25 (93.7%), Math-500 (99.8%), and LiveCodeBench-V5 (91.6%) -
highlighting holistic experience learning as a key step toward generalist
agents capable of expert-level reasoning. Code and data are available at
https://kagnlp.github.io/xolver.github.io/.