Além das Ferramentas Estáticas: Evolução de Ferramentas em Tempo de Teste para Raciocínio Científico

Resumo

O principal desafio da IA para a Ciência não é apenas o raciocínio, mas a capacidade de criar métodos computacionais num mundo científico aberto e em constante evolução. Os agentes baseados em LLM existentes dependem de bibliotecas de ferramentas estáticas e pré-definidas, um paradigma que falha fundamentalmente em domínios científicos onde as ferramentas são escassas, heterogéneas e intrinsecamente incompletas. Neste artigo, propomos a Evolução de Ferramentas em Tempo de Teste (TTE), um novo paradigma que permite aos agentes sintetizar, verificar e evoluir ferramentas executáveis durante a inferência. Ao transformar as ferramentas de recursos fixos em artefactos orientados por problemas, o TTE supera a rigidez e as limitações de cauda longa das bibliotecas de ferramentas estáticas. Para facilitar uma avaliação rigorosa, introduzimos o SciEvo, um benchmark que compreende 1.590 tarefas de raciocínio científico suportadas por 925 ferramentas evoluídas automaticamente. Experiências extensivas mostram que o TTE alcança um desempenho de ponta tanto em precisão como em eficiência de ferramentas, permitindo ao mesmo tempo uma adaptação eficaz de ferramentas computacionais entre domínios. O código e o benchmark foram disponibilizados em https://github.com/lujiaxuan0520/Test-Time-Tool-Evol.

English

The central challenge of AI for Science is not reasoning alone, but the ability to create computational methods in an open-ended scientific world. Existing LLM-based agents rely on static, pre-defined tool libraries, a paradigm that fundamentally fails in scientific domains where tools are sparse, heterogeneous, and intrinsically incomplete. In this paper, we propose Test-Time Tool Evolution (TTE), a new paradigm that enables agents to synthesize, verify, and evolve executable tools during inference. By transforming tools from fixed resources into problem-driven artifacts, TTE overcomes the rigidity and long-tail limitations of static tool libraries. To facilitate rigorous evaluation, we introduce SciEvo, a benchmark comprising 1,590 scientific reasoning tasks supported by 925 automatically evolved tools. Extensive experiments show that TTE achieves state-of-the-art performance in both accuracy and tool efficiency, while enabling effective cross-domain adaptation of computational tools. The code and benchmark have been released at https://github.com/lujiaxuan0520/Test-Time-Tool-Evol.