AstaBench: Avaliação Rigorosa de Agentes de IA com um Conjunto de Pesquisa Científica

Resumo

Os agentes de IA têm o potencial de revolucionar a produtividade científica ao automatizar revisões de literatura, replicar experimentos, analisar dados e até propor novas direções de investigação; de fato, existem agora muitos desses agentes, variando de sistemas de "pesquisa profunda" de propósito geral a agentes especializados em ciência, como o AI Scientist e o AIGS. A avaliação rigorosa desses agentes é crítica para o progresso. No entanto, os benchmarks existentes ficam aquém em várias frentes: eles (1) não fornecem medidas holísticas e informadas pelo produto de casos de uso do mundo real, como a pesquisa científica; (2) carecem de ferramentas de agente reproduzíveis necessárias para uma comparação controlada das capacidades centrais dos agentes; (3) não consideram variáveis de confusão, como o custo do modelo e o acesso a ferramentas; (4) não fornecem interfaces padronizadas para prototipagem e avaliação rápida de agentes; e (5) carecem de agentes de linha de base abrangentes necessários para identificar avanços reais. Em resposta, definimos princípios e ferramentas para avaliar agentes de forma mais rigorosa. Usando esses princípios, apresentamos o AstaBench, um conjunto que fornece a primeira medida holística da capacidade dos agentes de realizar pesquisa científica, compreendendo mais de 2400 problemas que abrangem todo o processo de descoberta científica e múltiplos domínios científicos, incluindo muitos problemas inspirados em solicitações reais de usuários a agentes Asta implantados. Nosso conjunto vem com o primeiro ambiente de pesquisa científica com ferramentas de busca de nível de produção que permitem uma avaliação controlada e reproduzível, contabilizando melhor os fatores de confusão. Juntamente, fornecemos um conjunto abrangente de nove classes de agentes Asta otimizados para ciência e numerosas linhas de base. Nossa extensa avaliação de 57 agentes em 22 classes de agentes revela várias descobertas interessantes, sendo a mais importante que, apesar do progresso significativo em certos aspectos individuais, a IA ainda está longe de resolver o desafio da assistência à pesquisa científica.

English

AI agents hold the potential to revolutionize scientific productivity by automating literature reviews, replicating experiments, analyzing data, and even proposing new directions of inquiry; indeed, there are now many such agents, ranging from general-purpose "deep research" systems to specialized science-specific agents, such as AI Scientist and AIGS. Rigorous evaluation of these agents is critical for progress. Yet existing benchmarks fall short on several fronts: they (1) fail to provide holistic, product-informed measures of real-world use cases such as science research; (2) lack reproducible agent tools necessary for a controlled comparison of core agentic capabilities; (3) do not account for confounding variables such as model cost and tool access; (4) do not provide standardized interfaces for quick agent prototyping and evaluation; and (5) lack comprehensive baseline agents necessary to identify true advances. In response, we define principles and tooling for more rigorously benchmarking agents. Using these, we present AstaBench, a suite that provides the first holistic measure of agentic ability to perform scientific research, comprising 2400+ problems spanning the entire scientific discovery process and multiple scientific domains, and including many problems inspired by actual user requests to deployed Asta agents. Our suite comes with the first scientific research environment with production-grade search tools that enable controlled, reproducible evaluation, better accounting for confounders. Alongside, we provide a comprehensive suite of nine science-optimized classes of Asta agents and numerous baselines. Our extensive evaluation of 57 agents across 22 agent classes reveals several interesting findings, most importantly that despite meaningful progress on certain individual aspects, AI remains far from solving the challenge of science research assistance.

AstaBench: Avaliação Rigorosa de Agentes de IA com um Conjunto de Pesquisa Científica

AstaBench: Rigorous Benchmarking of AI Agents with a Scientific Research Suite

Resumo

Support