Xolver: Ragionamento Multi-Agente con Apprendimento Esperienziale Olistico, Proprio Come una Squadra Olimpica
Xolver: Multi-Agent Reasoning with Holistic Experience Learning Just Like an Olympiad Team
June 17, 2025
Autori: Md Tanzib Hosain, Salman Rahman, Md Kishor Morol, Md Rizwan Parvez
cs.AI
Abstract
Nonostante i notevoli progressi nel ragionamento complesso, gli attuali modelli linguistici di grandi dimensioni (LLM) operano tipicamente in isolamento, trattando ogni problema come un tentativo indipendente, senza accumulare o integrare conoscenze esperienziali. Al contrario, i risolutori di problemi esperti, come le squadre delle Olimpiadi o dei concorsi di programmazione, sfruttano un ricco tessuto di esperienze: assorbono la guida dei coach, sviluppano intuizioni dai problemi passati, utilizzano la conoscenza degli strumenti e delle funzionalità delle librerie, adattano le strategie in base alle competenze e alle esperienze dei colleghi, affinano continuamente il loro ragionamento attraverso tentativi ed errori e imparano da altri problemi correlati anche durante la competizione. Introduciamo Xolver, un framework di ragionamento multi-agente senza addestramento che equipaggia un LLM black-box con una memoria persistente ed evolutiva di esperienze olistiche. Xolver integra diverse modalità esperienziali, tra cui il recupero esterno e autonomo, l'uso di strumenti, le interazioni collaborative, la valutazione guidata dagli agenti e il perfezionamento iterativo. Imparando da strategie rilevanti, frammenti di codice e modelli di ragionamento astratto al momento dell'inferenza, Xolver evita di generare soluzioni da zero, segnando una transizione dall'inferenza isolata verso agenti linguistici consapevoli dell'esperienza. Basato sia su modelli open-weight che proprietari, Xolver supera costantemente gli agenti di ragionamento specializzati. Anche con architetture leggere (ad esempio, QWQ-32B), spesso supera modelli avanzati come Qwen3-235B, Gemini 2.5 Pro, o3 e o4-mini-high. Con o3-mini-high, raggiunge nuovi risultati migliori su GSM8K (98,1%), AIME'24 (94,4%), AIME'25 (93,7%), Math-500 (99,8%) e LiveCodeBench-V5 (91,6%), evidenziando l'apprendimento esperienziale olistico come un passo chiave verso agenti generalisti capaci di ragionamenti di livello esperto. Codice e dati sono disponibili all'indirizzo https://kagnlp.github.io/xolver.github.io/.
English
Despite impressive progress on complex reasoning, current large language
models (LLMs) typically operate in isolation - treating each problem as an
independent attempt, without accumulating or integrating experiential
knowledge. In contrast, expert problem solvers - such as Olympiad or
programming contest teams - leverage a rich tapestry of experiences: absorbing
mentorship from coaches, developing intuition from past problems, leveraging
knowledge of tool usage and library functionality, adapting strategies based on
the expertise and experiences of peers, continuously refining their reasoning
through trial and error, and learning from other related problems even during
competition. We introduce Xolver, a training-free multi-agent reasoning
framework that equips a black-box LLM with a persistent, evolving memory of
holistic experience. Xolver integrates diverse experience modalities, including
external and self-retrieval, tool use, collaborative interactions, agent-driven
evaluation, and iterative refinement. By learning from relevant strategies,
code fragments, and abstract reasoning patterns at inference time, Xolver
avoids generating solutions from scratch - marking a transition from isolated
inference toward experience-aware language agents. Built on both open-weight
and proprietary models, Xolver consistently outperforms specialized reasoning
agents. Even with lightweight backbones (e.g., QWQ-32B), it often surpasses
advanced models including Qwen3-235B, Gemini 2.5 Pro, o3, and o4-mini-high.
With o3-mini-high, it achieves new best results on GSM8K (98.1%), AIME'24
(94.4%), AIME'25 (93.7%), Math-500 (99.8%), and LiveCodeBench-V5 (91.6%) -
highlighting holistic experience learning as a key step toward generalist
agents capable of expert-level reasoning. Code and data are available at
https://kagnlp.github.io/xolver.github.io/.