Xolver: Многоагентное рассуждение с целостным обучением на опыте, как в команде олимпиадников
Xolver: Multi-Agent Reasoning with Holistic Experience Learning Just Like an Olympiad Team
June 17, 2025
Авторы: Md Tanzib Hosain, Salman Rahman, Md Kishor Morol, Md Rizwan Parvez
cs.AI
Аннотация
Несмотря на впечатляющий прогресс в области сложных рассуждений, современные крупные языковые модели (LLM) обычно работают изолированно — рассматривая каждую задачу как независимую попытку, без накопления или интеграции опыта. В отличие от них, эксперты в решении задач — такие как команды олимпиад или программистских соревнований — используют богатый опыт: они перенимают наставления тренеров, развивают интуицию на основе прошлых задач, применяют знания о использовании инструментов и функциональности библиотек, адаптируют стратегии, основываясь на опыте и знаниях коллег, непрерывно совершенствуют свои рассуждения через проб и ошибки, а также учатся на других связанных задачах даже во время соревнований. Мы представляем Xolver — бесплатную мультиагентную систему рассуждений, которая оснащает черный ящик LLM постоянной, развивающейся памятью о целостном опыте. Xolver интегрирует различные модальности опыта, включая внешний и самостоятельный поиск, использование инструментов, совместные взаимодействия, оценку, проводимую агентами, и итеративное уточнение. Учась на соответствующих стратегиях, фрагментах кода и абстрактных шаблонах рассуждений во время вывода, Xolver избегает генерации решений с нуля — что знаменует переход от изолированного вывода к языковым агентам, учитывающим опыт. Построенный как на открытых, так и на проприетарных моделях, Xolver стабильно превосходит специализированные системы рассуждений. Даже с легковесными базовыми моделями (например, QWQ-32B) он часто опережает продвинутые модели, включая Qwen3-235B, Gemini 2.5 Pro, o3 и o4-mini-high. С o3-mini-high он достигает новых лучших результатов на GSM8K (98,1%), AIME'24 (94,4%), AIME'25 (93,7%), Math-500 (99,8%) и LiveCodeBench-V5 (91,6%) — подчеркивая, что обучение на целостном опыте является ключевым шагом к созданию универсальных агентов, способных на экспертный уровень рассуждений. Код и данные доступны по адресу https://kagnlp.github.io/xolver.github.io/.
English
Despite impressive progress on complex reasoning, current large language
models (LLMs) typically operate in isolation - treating each problem as an
independent attempt, without accumulating or integrating experiential
knowledge. In contrast, expert problem solvers - such as Olympiad or
programming contest teams - leverage a rich tapestry of experiences: absorbing
mentorship from coaches, developing intuition from past problems, leveraging
knowledge of tool usage and library functionality, adapting strategies based on
the expertise and experiences of peers, continuously refining their reasoning
through trial and error, and learning from other related problems even during
competition. We introduce Xolver, a training-free multi-agent reasoning
framework that equips a black-box LLM with a persistent, evolving memory of
holistic experience. Xolver integrates diverse experience modalities, including
external and self-retrieval, tool use, collaborative interactions, agent-driven
evaluation, and iterative refinement. By learning from relevant strategies,
code fragments, and abstract reasoning patterns at inference time, Xolver
avoids generating solutions from scratch - marking a transition from isolated
inference toward experience-aware language agents. Built on both open-weight
and proprietary models, Xolver consistently outperforms specialized reasoning
agents. Even with lightweight backbones (e.g., QWQ-32B), it often surpasses
advanced models including Qwen3-235B, Gemini 2.5 Pro, o3, and o4-mini-high.
With o3-mini-high, it achieves new best results on GSM8K (98.1%), AIME'24
(94.4%), AIME'25 (93.7%), Math-500 (99.8%), and LiveCodeBench-V5 (91.6%) -
highlighting holistic experience learning as a key step toward generalist
agents capable of expert-level reasoning. Code and data are available at
https://kagnlp.github.io/xolver.github.io/.