静的ツールを超えて:科学的推論のためのテスト時ツール進化
Beyond Static Tools: Test-Time Tool Evolution for Scientific Reasoning
January 12, 2026
著者: Jiaxuan Lu, Ziyu Kong, Yemin Wang, Rong Fu, Haiyuan Wan, Cheng Yang, Wenjie Lou, Haoran Sun, Lilong Wang, Yankai Jiang, Xiaosong Wang, Xiao Sun, Dongzhan Zhou
cs.AI
要旨
AI for Scienceの中心的な課題は、推論だけではなく、開かれた科学的世界において計算手法を創造する能力にある。既存のLLMベースのエージェントは静的に事前定義されたツールライブラリに依存しているが、このパラダイムは、ツールが疎で不均質かつ本質的に不完全な科学領域では根本的に機能しない。本論文では、推論過程で実行可能なツールを合成・検証・進化させる新しいパラダイムであるTest-Time Tool Evolution(TTE)を提案する。TTEはツールを固定的なリソースから問題駆動型の成果物へと変換することで、静的ツールライブラリの硬直性とロングテール問題を克服する。厳密な評価を可能にするため、925個の自動進化ツールで支援される1,590の科学的推論タスクから構成されるベンチマークSciEvoを導入した。大規模な実験により、TTEが精度とツール効率の両方で最先端の性能を達成し、計算ツールの効果的な分野間適応を可能にすることを示す。コードとベンチマークはhttps://github.com/lujiaxuan0520/Test-Time-Tool-Evolで公開されている。
English
The central challenge of AI for Science is not reasoning alone, but the ability to create computational methods in an open-ended scientific world. Existing LLM-based agents rely on static, pre-defined tool libraries, a paradigm that fundamentally fails in scientific domains where tools are sparse, heterogeneous, and intrinsically incomplete. In this paper, we propose Test-Time Tool Evolution (TTE), a new paradigm that enables agents to synthesize, verify, and evolve executable tools during inference. By transforming tools from fixed resources into problem-driven artifacts, TTE overcomes the rigidity and long-tail limitations of static tool libraries. To facilitate rigorous evaluation, we introduce SciEvo, a benchmark comprising 1,590 scientific reasoning tasks supported by 925 automatically evolved tools. Extensive experiments show that TTE achieves state-of-the-art performance in both accuracy and tool efficiency, while enabling effective cross-domain adaptation of computational tools. The code and benchmark have been released at https://github.com/lujiaxuan0520/Test-Time-Tool-Evol.