Xolver: Raciocínio Multiagente com Aprendizado de Experiência Holística Como uma Equipe Olímpica
Xolver: Multi-Agent Reasoning with Holistic Experience Learning Just Like an Olympiad Team
June 17, 2025
Autores: Md Tanzib Hosain, Salman Rahman, Md Kishor Morol, Md Rizwan Parvez
cs.AI
Resumo
Apesar dos avanços impressionantes no raciocínio complexo, os grandes modelos de linguagem (LLMs) atuais geralmente operam de forma isolada - tratando cada problema como uma tentativa independente, sem acumular ou integrar conhecimento experiencial. Em contraste, solucionadores de problemas especializados - como equipes de olimpíadas ou competições de programação - aproveitam um rico conjunto de experiências: absorvendo mentoria de treinadores, desenvolvendo intuição a partir de problemas passados, utilizando conhecimento sobre o uso de ferramentas e funcionalidades de bibliotecas, adaptando estratégias com base na expertise e experiências de colegas, refinando continuamente seu raciocínio por meio de tentativa e erro, e aprendendo com outros problemas relacionados, mesmo durante competições. Apresentamos o Xolver, uma estrutura de raciocínio multiagente sem necessidade de treinamento que equipa um LLM de caixa preta com uma memória persistente e evolutiva de experiência holística. O Xolver integra diversas modalidades de experiência, incluindo recuperação externa e automática, uso de ferramentas, interações colaborativas, avaliação conduzida por agentes e refinamento iterativo. Ao aprender estratégias relevantes, fragmentos de código e padrões de raciocínio abstrato durante a inferência, o Xolver evita gerar soluções do zero - marcando uma transição da inferência isolada para agentes de linguagem conscientes da experiência. Construído tanto em modelos de peso aberto quanto proprietários, o Xolver consistentemente supera agentes de raciocínio especializados. Mesmo com backbones leves (por exemplo, QWQ-32B), ele frequentemente ultrapassa modelos avançados, incluindo Qwen3-235B, Gemini 2.5 Pro, o3 e o4-mini-high. Com o o3-mini-high, ele alcança novos melhores resultados no GSM8K (98,1%), AIME'24 (94,4%), AIME'25 (93,7%), Math-500 (99,8%) e LiveCodeBench-V5 (91,6%) - destacando o aprendizado de experiência holística como um passo crucial para agentes generalistas capazes de raciocínio em nível especializado. Código e dados estão disponíveis em https://kagnlp.github.io/xolver.github.io/.
English
Despite impressive progress on complex reasoning, current large language
models (LLMs) typically operate in isolation - treating each problem as an
independent attempt, without accumulating or integrating experiential
knowledge. In contrast, expert problem solvers - such as Olympiad or
programming contest teams - leverage a rich tapestry of experiences: absorbing
mentorship from coaches, developing intuition from past problems, leveraging
knowledge of tool usage and library functionality, adapting strategies based on
the expertise and experiences of peers, continuously refining their reasoning
through trial and error, and learning from other related problems even during
competition. We introduce Xolver, a training-free multi-agent reasoning
framework that equips a black-box LLM with a persistent, evolving memory of
holistic experience. Xolver integrates diverse experience modalities, including
external and self-retrieval, tool use, collaborative interactions, agent-driven
evaluation, and iterative refinement. By learning from relevant strategies,
code fragments, and abstract reasoning patterns at inference time, Xolver
avoids generating solutions from scratch - marking a transition from isolated
inference toward experience-aware language agents. Built on both open-weight
and proprietary models, Xolver consistently outperforms specialized reasoning
agents. Even with lightweight backbones (e.g., QWQ-32B), it often surpasses
advanced models including Qwen3-235B, Gemini 2.5 Pro, o3, and o4-mini-high.
With o3-mini-high, it achieves new best results on GSM8K (98.1%), AIME'24
(94.4%), AIME'25 (93.7%), Math-500 (99.8%), and LiveCodeBench-V5 (91.6%) -
highlighting holistic experience learning as a key step toward generalist
agents capable of expert-level reasoning. Code and data are available at
https://kagnlp.github.io/xolver.github.io/.