A Incrível Corrida dos Agentes: Fortes Usuários de Ferramentas, Fracos Navegadores

Resumo

Os benchmarks existentes para avaliação do uso de ferramentas por agentes de LLM são maciçamente lineares: nossa análise de seis benchmarks mostra que 55 a 100% das instâncias são cadeias simples de 2 a 5 etapas. Apresentamos The Amazing Agent Race (AAR), um benchmark que apresenta quebra-cabeças de grafo acíclico direcionado (DAG) (ou "pernas") com cadeias de ferramentas do tipo fork-merge. Disponibilizamos 1.400 instâncias em duas variantes: sequencial (800 pernas) e composicional (600 pernas DAG). Os agentes devem navegar pela Wikipedia, executar cadeias de ferramentas de múltiplas etapas e agregar os resultados em uma resposta verificável. As pernas são geradas proceduralmente a partir de sementes da Wikipedia em quatro níveis de dificuldade, com validação via API ao vivo. Três métricas complementares (precisão na linha de chegada, taxa de visita ao pit-stop e taxa de conclusão de obstáculos) diagnosticam separadamente falhas de navegação, uso de ferramentas e aritméticas. Avaliando três frameworks de agentes em 1.400 pernas, o melhor alcança apenas 37,2% de precisão. Erros de navegação predominam (27 a 52% dos testes), enquanto erros de uso de ferramentas ficam abaixo de 17%, e a arquitetura do agente importa tanto quanto a escala do modelo (Claude Code empata com Codex CLI em 37%, usando 6 vezes menos tokens). A estrutura composicional do AAR revela que os agentes falham não em chamar ferramentas, mas em navegar para as páginas corretas, um ponto cego invisível para benchmarks lineares. A página do projeto pode ser acessada em: https://minnesotanlp.github.io/the-amazing-agent-race

English

Existing tool-use benchmarks for LLM agents are overwhelmingly linear: our analysis of six benchmarks shows 55 to 100% of instances are simple chains of 2 to 5 steps. We introduce The Amazing Agent Race (AAR), a benchmark featuring directed acyclic graph (DAG) puzzles (or "legs") with fork-merge tool chains. We release 1,400 instances across two variants: sequential (800 legs) and compositional (600 DAG legs). Agents must navigate Wikipedia, execute multi-step tool chains, and aggregate results into a verifiable answer. Legs are procedurally generated from Wikipedia seeds across four difficulty levels with live-API validation. Three complementary metrics (finish-line accuracy, pit-stop visit rate, and roadblock completion rate) separately diagnose navigation, tool-use, and arithmetic failures. Evaluating three agent frameworks on 1,400 legs, the best achieves only 37.2% accuracy. Navigation errors dominate (27 to 52% of trials) while tool-use errors remain below 17%, and agent architecture matters as much as model scale (Claude Code matches Codex CLI at 37% with 6x fewer tokens). The compositional structure of AAR reveals that agents fail not at calling tools but at navigating to the right pages, a blind spot invisible to linear benchmarks. The project page can be accessed at: https://minnesotanlp.github.io/the-amazing-agent-race

A Incrível Corrida dos Agentes: Fortes Usuários de Ferramentas, Fracos Navegadores

The Amazing Agent Race: Strong Tool Users, Weak Navigators

Resumo

Support