Xolver: Multi-Agent-Begründung mit ganzheitlichem Erfahrungslernen wie ein Olympiateam
Xolver: Multi-Agent Reasoning with Holistic Experience Learning Just Like an Olympiad Team
June 17, 2025
Autoren: Md Tanzib Hosain, Salman Rahman, Md Kishor Morol, Md Rizwan Parvez
cs.AI
Zusammenfassung
Trotz beeindruckender Fortschritte im Bereich des komplexen Denkens arbeiten aktuelle große Sprachmodelle (LLMs) typischerweise isoliert – sie behandeln jedes Problem als einen unabhängigen Versuch, ohne erfahrungsbasiertes Wissen anzusammeln oder zu integrieren. Im Gegensatz dazu nutzen Experten in der Problemlösung – wie etwa Olympiade- oder Programmierwettbewerbsteams – ein reiches Geflecht von Erfahrungen: Sie nehmen Mentoring von Trainern auf, entwickeln Intuition aus vergangenen Problemen, nutzen Wissen über Werkzeuge und Bibliotheksfunktionen, passen Strategien basierend auf dem Fachwissen und den Erfahrungen von Kollegen an, verfeinern kontinuierlich ihr Denken durch Versuch und Irrtum und lernen sogar während des Wettbewerbs aus anderen verwandten Problemen. Wir stellen Xolver vor, ein trainingsfreies Multi-Agenten-Denkframework, das ein Black-Box-LLM mit einem persistenten, sich entwickelnden Gedächtnis ganzheitlicher Erfahrungen ausstattet. Xolver integriert verschiedene Erfahrungsmodalitäten, einschließlich externer und selbstgesteuerter Informationsbeschaffung, Werkzeugnutzung, kollaborativer Interaktionen, agentengesteuerter Bewertung und iterativer Verfeinerung. Indem es relevante Strategien, Codefragmente und abstrakte Denkmuster zur Inferenzzeit lernt, vermeidet Xolver die Generierung von Lösungen von Grund auf – ein Übergang von isolierter Inferenz hin zu erfahrungsbewussten Sprachagenten. Basierend auf sowohl Open-Weight- als auch proprietären Modellen übertrifft Xolver durchweg spezialisierte Denkagenten. Selbst mit leichten Backbones (z.B. QWQ-32B) übertrifft es oft fortschrittliche Modelle wie Qwen3-235B, Gemini 2.5 Pro, o3 und o4-mini-high. Mit o3-mini-high erzielt es neue Bestwerte auf GSM8K (98,1 %), AIME'24 (94,4 %), AIME'25 (93,7 %), Math-500 (99,8 %) und LiveCodeBench-V5 (91,6 %) – was das ganzheitliche Erfahrungslernen als einen entscheidenden Schritt hin zu Generalistenagenten mit Expertenniveau im Denken hervorhebt. Code und Daten sind verfügbar unter https://kagnlp.github.io/xolver.github.io/.
English
Despite impressive progress on complex reasoning, current large language
models (LLMs) typically operate in isolation - treating each problem as an
independent attempt, without accumulating or integrating experiential
knowledge. In contrast, expert problem solvers - such as Olympiad or
programming contest teams - leverage a rich tapestry of experiences: absorbing
mentorship from coaches, developing intuition from past problems, leveraging
knowledge of tool usage and library functionality, adapting strategies based on
the expertise and experiences of peers, continuously refining their reasoning
through trial and error, and learning from other related problems even during
competition. We introduce Xolver, a training-free multi-agent reasoning
framework that equips a black-box LLM with a persistent, evolving memory of
holistic experience. Xolver integrates diverse experience modalities, including
external and self-retrieval, tool use, collaborative interactions, agent-driven
evaluation, and iterative refinement. By learning from relevant strategies,
code fragments, and abstract reasoning patterns at inference time, Xolver
avoids generating solutions from scratch - marking a transition from isolated
inference toward experience-aware language agents. Built on both open-weight
and proprietary models, Xolver consistently outperforms specialized reasoning
agents. Even with lightweight backbones (e.g., QWQ-32B), it often surpasses
advanced models including Qwen3-235B, Gemini 2.5 Pro, o3, and o4-mini-high.
With o3-mini-high, it achieves new best results on GSM8K (98.1%), AIME'24
(94.4%), AIME'25 (93.7%), Math-500 (99.8%), and LiveCodeBench-V5 (91.6%) -
highlighting holistic experience learning as a key step toward generalist
agents capable of expert-level reasoning. Code and data are available at
https://kagnlp.github.io/xolver.github.io/.