La straordinaria gara degli agenti: abili utilizzatori di strumenti, deboli navigatori

Abstract

I benchmark esistenti per l'uso di strumenti da parte di agenti basati su LLM sono prevalentemente lineari: la nostra analisi di sei benchmark mostra che dal 55% al 100% delle istanze sono semplici catene da 2 a 5 passi. Introduciamo The Amazing Agent Race (AAR), un benchmark che presenta enigmi a grafo aciclico orientato (DAG) (o "tappe") con catene di strumenti fork-merge. Rilasciamo 1.400 istanze in due varianti: sequenziale (800 tappe) e compositiva (600 tappe DAG). Gli agenti devono navigare su Wikipedia, eseguire catene di strumenti multi-step e aggregare i risultati in una risposta verificabile. Le tappe sono generate proceduralmente da semi di Wikipedia su quattro livelli di difficoltà con validazione via API live. Tre metriche complementari (accuratezza al traguardo, tasso di visita ai pit-stop e tasso di completamento degli ostacoli) diagnosticano separatamente gli errori di navigazione, utilizzo di strumenti e calcolo. Valutando tre framework di agenti su 1.400 tappe, il migliore raggiunge solo il 37,2% di accuratezza. Gli errori di navigazione dominano (dal 27% al 52% dei tentativi) mentre gli errori nell'uso degli strumenti rimangono sotto il 17%, e l'architettura dell'agente conta tanto quanto la scala del modello (Claude Code eguaglia Codex CLI al 37% con 6 volte meno token). La struttura compositiva di AAR rivela che gli agenti falliscono non nel chiamare gli strumenti ma nel navigare verso le pagine giuste, un punto cieco invisibile ai benchmark lineari. La pagina del progetto è accessibile all'indirizzo: https://minnesotanlp.github.io/the-amazing-agent-race

English

Existing tool-use benchmarks for LLM agents are overwhelmingly linear: our analysis of six benchmarks shows 55 to 100% of instances are simple chains of 2 to 5 steps. We introduce The Amazing Agent Race (AAR), a benchmark featuring directed acyclic graph (DAG) puzzles (or "legs") with fork-merge tool chains. We release 1,400 instances across two variants: sequential (800 legs) and compositional (600 DAG legs). Agents must navigate Wikipedia, execute multi-step tool chains, and aggregate results into a verifiable answer. Legs are procedurally generated from Wikipedia seeds across four difficulty levels with live-API validation. Three complementary metrics (finish-line accuracy, pit-stop visit rate, and roadblock completion rate) separately diagnose navigation, tool-use, and arithmetic failures. Evaluating three agent frameworks on 1,400 legs, the best achieves only 37.2% accuracy. Navigation errors dominate (27 to 52% of trials) while tool-use errors remain below 17%, and agent architecture matters as much as model scale (Claude Code matches Codex CLI at 37% with 6x fewer tokens). The compositional structure of AAR reveals that agents fail not at calling tools but at navigating to the right pages, a blind spot invisible to linear benchmarks. The project page can be accessed at: https://minnesotanlp.github.io/the-amazing-agent-race

La straordinaria gara degli agenti: abili utilizzatori di strumenti, deboli navigatori

The Amazing Agent Race: Strong Tool Users, Weak Navigators

Abstract

Support