SciMaster: 汎用科学AIエージェントへの道、第1部 X-Masterを基盤として:人類最後の試験をリードできるか?
SciMaster: Towards General-Purpose Scientific AI Agents, Part I. X-Master as Foundation: Can We Lead on Humanity's Last Exam?
July 7, 2025
著者: Jingyi Chai, Shuo Tang, Rui Ye, Yuwen Du, Xinyu Zhu, Mengcheng Zhou, Yanfeng Wang, Weinan E, Yuzhi Zhang, Linfeng Zhang, Siheng Chen
cs.AI
要旨
AIエージェントの急速な進歩は、科学の発見を加速させるという長年の野望に火をつけました。この目標を達成するためには、人類の知識の最前線を深く理解する必要があります。そのため、「Humanity's Last Exam(HLE)」は、科学的AIエージェントを評価するための非常に挑戦的な試金石を提供します。本研究では、汎用エージェントの基盤となるアーキテクチャを構築し、HLEでのリーディングパフォーマンスを通じてその能力を検証することを目指します。これを実現するために、我々はX-Masterを導入します。これは、推論プロセス中に外部ツールと柔軟に相互作用することで人間の研究者を模倣するように設計された、ツール拡張型推論エージェントです。このエージェントは、コードを相互作用言語として概念化することを指針とし、組み込みのPythonライブラリやカスタマイズされたツールを柔軟に活用して推論を強化します。さらに、我々はX-Mastersという分散・積層型のエージェントワークフローを通じてその能力をスケールアップし、推論の幅と深さを体系的に向上させます。我々のオープンソースソリューションであるX-Mastersは、HLEで32.1%のスコアを記録し、OpenAIとGoogleのDeep Research(26.6%と26.9%)を上回り、初めて30%の閾値を超える新たな最先端記録を樹立しました。この研究により、複雑なタスク解決に対する理解を深め、将来の進歩に役立つ貴重な経験を蓄積し、その後のモデルトレーニングを導くことが可能となります。
English
The rapid advancements of AI agents have ignited the long-held ambition of
leveraging them to accelerate scientific discovery. Achieving this goal
requires a deep understanding of the frontiers of human knowledge. As such,
Humanity's Last Exam (HLE) provides an exceptionally challenging touchstone for
evaluating scientific AI agents. In this work, we aim to construct the
foundational architecture for general-purpose agents and validate the
capabilities through leading performance on HLE. To achieve this, we introduce
X-Master, a tool-augmented reasoning agent designed to emulate human
researchers by interacting flexibly with external tools during its reasoning
process. This agent, guided by the conceptualization of code as an interaction
language, can flexibly leverage built-in Python libraries and our customized
tools to augment the reasoning. We further scale its capabilities through
X-Masters, a scattered-and-stacked agentic workflow that systematically
enhances breadth and depth of reasoning. Our open-source solution, X-Masters,
sets a new state-of-the-art record on HLE with a score of 32.1%, surpassing
OpenAI's and Google's Deep Research (26.6% and 26.9%) and becoming the first to
exceed the 30% threshold. This work allows us to gain a deeper understanding of
complex task-solving and accumulates valuable experience that can inform future
advancements, guiding subsequent model training.