ChatPaper.aiChatPaper

정적 도구를 넘어서: 과학적 추론을 위한 테스트 시간 도구 진화 (Note: The translation maintains the academic tone while adapting to natural Korean expression. "Test-Time" is translated as "테스트 시간" which is the standard term in Korean AI/computer science literature, and "Tool Evolution" is rendered as "도구 진화" to preserve the core concept of dynamic adaptation.)

Beyond Static Tools: Test-Time Tool Evolution for Scientific Reasoning

January 12, 2026
저자: Jiaxuan Lu, Ziyu Kong, Yemin Wang, Rong Fu, Haiyuan Wan, Cheng Yang, Wenjie Lou, Haoran Sun, Lilong Wang, Yankai Jiang, Xiaosong Wang, Xiao Sun, Dongzhan Zhou
cs.AI

초록

과학 분야 인공지능의 핵심 과제는 단순한 추론 능력이 아닌, 열린 과학 세계에서 계산 방법을 창조하는 능력에 있습니다. 기존 LLM 기반 에이전트는 정적이고 사전 정의된 도구 라이브러리에 의존하는데, 이 패러다임은 도구가 희소하고 이질적이며 본질적으로 불완전한 과학 영역에서는 근본적으로 한계를 보입니다. 본 논문에서는 추론 과정에서 실행 가능한 도구를 합성, 검증 및 진화시킬 수 있는 새로운 패러다임인 테스트 타임 도구 진화(TTE)를 제안합니다. TTE는 도구를 고정된 자원에서 문제 주도적 산출물로 전환함으로써 정적 도구 라이브러리의 경직성과 롱테일 한계를 극복합니다. 엄격한 평가를 위해 925개의 자동 진화 도구로 지원되는 1,590개의 과학적 추론 과제로 구성된 벤치마크 SciEvo를 도입했습니다. 대규모 실험 결과, TTE는 정확도와 도구 효율성 모두에서 최첨단 성능을 달성하면서 계산 도구의 효과적인 크로스 도메인 적응을 가능하게 함을 보여줍니다. 코드와 벤치마크는 https://github.com/lujiaxuan0520/Test-Time-Tool-Evol에서 공개되었습니다.
English
The central challenge of AI for Science is not reasoning alone, but the ability to create computational methods in an open-ended scientific world. Existing LLM-based agents rely on static, pre-defined tool libraries, a paradigm that fundamentally fails in scientific domains where tools are sparse, heterogeneous, and intrinsically incomplete. In this paper, we propose Test-Time Tool Evolution (TTE), a new paradigm that enables agents to synthesize, verify, and evolve executable tools during inference. By transforming tools from fixed resources into problem-driven artifacts, TTE overcomes the rigidity and long-tail limitations of static tool libraries. To facilitate rigorous evaluation, we introduce SciEvo, a benchmark comprising 1,590 scientific reasoning tasks supported by 925 automatically evolved tools. Extensive experiments show that TTE achieves state-of-the-art performance in both accuracy and tool efficiency, while enabling effective cross-domain adaptation of computational tools. The code and benchmark have been released at https://github.com/lujiaxuan0520/Test-Time-Tool-Evol.
PDF351January 17, 2026