TravelPlanner: Un Benchmark per la Pianificazione nel Mondo Reale con Agenti Linguistici

Abstract

La pianificazione è stata parte integrante della ricerca fondamentale nell'intelligenza artificiale sin dalla sua concezione, ma i primi agenti di IA si sono concentrati principalmente su contesti limitati, poiché molti dei substrati cognitivi necessari per una pianificazione di livello umano erano carenti. Recentemente, gli agenti linguistici basati su modelli linguistici di grandi dimensioni (LLM) hanno dimostrato capacità interessanti, come l'uso di strumenti e il ragionamento. Questi agenti linguistici sono in grado di pianificare in contesti più complessi, al di là delle capacità dei precedenti agenti di IA? Per approfondire questa indagine, proponiamo TravelPlanner, un nuovo benchmark di pianificazione che si concentra sulla pianificazione di viaggi, uno scenario di pianificazione comune nel mondo reale. Offre un ambiente sandbox ricco, vari strumenti per accedere a quasi quattro milioni di record di dati e 1.225 intenti di pianificazione e piani di riferimento accuratamente curati. Valutazioni complete mostrano che gli attuali agenti linguistici non sono ancora in grado di gestire compiti di pianificazione così complessi: persino GPT-4 raggiunge un tasso di successo dello 0,6%. Gli agenti linguistici faticano a rimanere focalizzati sul compito, a utilizzare gli strumenti giusti per raccogliere informazioni o a tenere traccia di vincoli multipli. Tuttavia, osserviamo che la mera possibilità per gli agenti linguistici di affrontare un problema così complesso rappresenta di per sé un progresso non banale. TravelPlanner fornisce un banco di prova impegnativo ma significativo per i futuri agenti linguistici.

English

Planning has been part of the core pursuit for artificial intelligence since its conception, but earlier AI agents mostly focused on constrained settings because many of the cognitive substrates necessary for human-level planning have been lacking. Recently, language agents powered by large language models (LLMs) have shown interesting capabilities such as tool use and reasoning. Are these language agents capable of planning in more complex settings that are out of the reach of prior AI agents? To advance this investigation, we propose TravelPlanner, a new planning benchmark that focuses on travel planning, a common real-world planning scenario. It provides a rich sandbox environment, various tools for accessing nearly four million data records, and 1,225 meticulously curated planning intents and reference plans. Comprehensive evaluations show that the current language agents are not yet capable of handling such complex planning tasks-even GPT-4 only achieves a success rate of 0.6%. Language agents struggle to stay on task, use the right tools to collect information, or keep track of multiple constraints. However, we note that the mere possibility for language agents to tackle such a complex problem is in itself non-trivial progress. TravelPlanner provides a challenging yet meaningful testbed for future language agents.

TravelPlanner: Un Benchmark per la Pianificazione nel Mondo Reale con Agenti Linguistici

TravelPlanner: A Benchmark for Real-World Planning with Language Agents

Abstract

Support