Xolver: Razonamiento Multiagente con Aprendizaje de Experiencia Holística como un Equipo Olímpico
Xolver: Multi-Agent Reasoning with Holistic Experience Learning Just Like an Olympiad Team
June 17, 2025
Autores: Md Tanzib Hosain, Salman Rahman, Md Kishor Morol, Md Rizwan Parvez
cs.AI
Resumen
A pesar de los avances impresionantes en el razonamiento complejo, los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) actuales suelen operar de manera aislada, tratando cada problema como un intento independiente, sin acumular o integrar conocimiento experiencial. En contraste, los expertos en resolución de problemas, como los equipos de olimpiadas o concursos de programación, aprovechan un rico tejido de experiencias: absorben mentoría de entrenadores, desarrollan intuición a partir de problemas pasados, utilizan conocimientos sobre el uso de herramientas y la funcionalidad de bibliotecas, adaptan estrategias basadas en la experiencia y conocimientos de sus pares, refinan continuamente su razonamiento mediante prueba y error, y aprenden de otros problemas relacionados incluso durante la competencia. Presentamos Xolver, un marco de razonamiento multiagente sin entrenamiento que equipa a un LLM de caja negra con una memoria persistente y en evolución de experiencia holística. Xolver integra diversas modalidades de experiencia, incluyendo recuperación externa y autónoma, uso de herramientas, interacciones colaborativas, evaluación impulsada por agentes y refinamiento iterativo. Al aprender de estrategias relevantes, fragmentos de código y patrones de razonamiento abstracto en tiempo de inferencia, Xolver evita generar soluciones desde cero, marcando una transición desde la inferencia aislada hacia agentes de lenguaje conscientes de la experiencia. Construido tanto en modelos de peso abierto como propietarios, Xolver supera consistentemente a agentes de razonamiento especializados. Incluso con arquitecturas ligeras (por ejemplo, QWQ-32B), a menudo supera a modelos avanzados como Qwen3-235B, Gemini 2.5 Pro, o3 y o4-mini-high. Con o3-mini-high, logra nuevos mejores resultados en GSM8K (98.1%), AIME'24 (94.4%), AIME'25 (93.7%), Math-500 (99.8%) y LiveCodeBench-V5 (91.6%), destacando el aprendizaje de experiencia holística como un paso clave hacia agentes generalistas capaces de razonamiento a nivel experto. El código y los datos están disponibles en https://kagnlp.github.io/xolver.github.io/.
English
Despite impressive progress on complex reasoning, current large language
models (LLMs) typically operate in isolation - treating each problem as an
independent attempt, without accumulating or integrating experiential
knowledge. In contrast, expert problem solvers - such as Olympiad or
programming contest teams - leverage a rich tapestry of experiences: absorbing
mentorship from coaches, developing intuition from past problems, leveraging
knowledge of tool usage and library functionality, adapting strategies based on
the expertise and experiences of peers, continuously refining their reasoning
through trial and error, and learning from other related problems even during
competition. We introduce Xolver, a training-free multi-agent reasoning
framework that equips a black-box LLM with a persistent, evolving memory of
holistic experience. Xolver integrates diverse experience modalities, including
external and self-retrieval, tool use, collaborative interactions, agent-driven
evaluation, and iterative refinement. By learning from relevant strategies,
code fragments, and abstract reasoning patterns at inference time, Xolver
avoids generating solutions from scratch - marking a transition from isolated
inference toward experience-aware language agents. Built on both open-weight
and proprietary models, Xolver consistently outperforms specialized reasoning
agents. Even with lightweight backbones (e.g., QWQ-32B), it often surpasses
advanced models including Qwen3-235B, Gemini 2.5 Pro, o3, and o4-mini-high.
With o3-mini-high, it achieves new best results on GSM8K (98.1%), AIME'24
(94.4%), AIME'25 (93.7%), Math-500 (99.8%), and LiveCodeBench-V5 (91.6%) -
highlighting holistic experience learning as a key step toward generalist
agents capable of expert-level reasoning. Code and data are available at
https://kagnlp.github.io/xolver.github.io/.