ChatPaper.aiChatPaper

Xolver: オリンピックチームのようなホリスティック経験学習を活用したマルチエージェント推論

Xolver: Multi-Agent Reasoning with Holistic Experience Learning Just Like an Olympiad Team

June 17, 2025
著者: Md Tanzib Hosain, Salman Rahman, Md Kishor Morol, Md Rizwan Parvez
cs.AI

要旨

複雑な推論において目覚ましい進展を遂げているにもかかわらず、現在の大規模言語モデル(LLMs)は通常、孤立して動作しており、各問題を独立した試みとして扱い、経験的知識を蓄積または統合することはない。これに対して、オリンピックやプログラミングコンテストのチームなどの専門的な問題解決者は、豊かな経験の織物を活用する。コーチからの指導を吸収し、過去の問題から直感を養い、ツールの使用やライブラリの機能に関する知識を活用し、仲間の専門知識や経験に基づいて戦略を適応させ、試行錯誤を通じて推論を継続的に洗練し、競技中でも他の関連する問題から学ぶ。本論文では、Xolverを紹介する。これは、ブラックボックスのLLMに、包括的な経験の永続的かつ進化するメモリを装備する、トレーニング不要のマルチエージェント推論フレームワークである。Xolverは、外部および自己検索、ツールの使用、協調的相互作用、エージェント主導の評価、反復的な洗練など、多様な経験モダリティを統合する。推論時に、関連する戦略、コードフラグメント、抽象的な推論パターンから学ぶことで、Xolverはゼロからソリューションを生成することを避け、孤立した推論から経験を意識した言語エージェントへの移行を示す。オープンウェイトおよびプロプライエタリモデルの両方に基づいて構築されたXolverは、専門的な推論エージェントを一貫して上回る。軽量なバックボーン(例:QWQ-32B)であっても、Qwen3-235B、Gemini 2.5 Pro、o3、o4-mini-highなどの高度なモデルをしばしば凌駕する。o3-mini-highでは、GSM8K(98.1%)、AIME'24(94.4%)、AIME'25(93.7%)、Math-500(99.8%)、LiveCodeBench-V5(91.6%)において新たな最高結果を達成し、専門家レベルの推論が可能な汎用エージェントに向けた重要なステップとして、包括的な経験学習を強調する。コードとデータはhttps://kagnlp.github.io/xolver.github.io/で利用可能である。
English
Despite impressive progress on complex reasoning, current large language models (LLMs) typically operate in isolation - treating each problem as an independent attempt, without accumulating or integrating experiential knowledge. In contrast, expert problem solvers - such as Olympiad or programming contest teams - leverage a rich tapestry of experiences: absorbing mentorship from coaches, developing intuition from past problems, leveraging knowledge of tool usage and library functionality, adapting strategies based on the expertise and experiences of peers, continuously refining their reasoning through trial and error, and learning from other related problems even during competition. We introduce Xolver, a training-free multi-agent reasoning framework that equips a black-box LLM with a persistent, evolving memory of holistic experience. Xolver integrates diverse experience modalities, including external and self-retrieval, tool use, collaborative interactions, agent-driven evaluation, and iterative refinement. By learning from relevant strategies, code fragments, and abstract reasoning patterns at inference time, Xolver avoids generating solutions from scratch - marking a transition from isolated inference toward experience-aware language agents. Built on both open-weight and proprietary models, Xolver consistently outperforms specialized reasoning agents. Even with lightweight backbones (e.g., QWQ-32B), it often surpasses advanced models including Qwen3-235B, Gemini 2.5 Pro, o3, and o4-mini-high. With o3-mini-high, it achieves new best results on GSM8K (98.1%), AIME'24 (94.4%), AIME'25 (93.7%), Math-500 (99.8%), and LiveCodeBench-V5 (91.6%) - highlighting holistic experience learning as a key step toward generalist agents capable of expert-level reasoning. Code and data are available at https://kagnlp.github.io/xolver.github.io/.
PDF342June 18, 2025