TravelPlanner: Ein Benchmark für die Planung in der realen Welt mit Sprachagenten
TravelPlanner: A Benchmark for Real-World Planning with Language Agents
February 2, 2024
Autoren: Jian Xie, Kai Zhang, Jiangjie Chen, Tinghui Zhu, Renze Lou, Yuandong Tian, Yanghua Xiao, Yu Su
cs.AI
Zusammenfassung
Planung ist seit den Anfängen der künstlichen Intelligenz (KI) ein zentrales Forschungsziel. Frühere KI-Agenten konzentrierten sich jedoch hauptsächlich auf eingeschränkte Szenarien, da viele der kognitiven Grundlagen, die für menschenähnliche Planung erforderlich sind, fehlten. In jüngster Zeit haben Sprachagenten, die auf großen Sprachmodellen (LLMs) basieren, interessante Fähigkeiten wie Werkzeugnutzung und logisches Denken gezeigt. Sind diese Sprachagenten in der Lage, in komplexeren Umgebungen zu planen, die für frühere KI-Agenten unerreichbar waren? Um diese Untersuchung voranzutreiben, schlagen wir TravelPlanner vor, einen neuen Planungs-Benchmark, der sich auf die Reiseplanung konzentriert – ein häufiges reales Planungsszenario. Es bietet eine umfangreiche Sandbox-Umgebung, verschiedene Werkzeuge für den Zugriff auf fast vier Millionen Datensätze sowie 1.225 sorgfältig kuratierte Planungsabsichten und Referenzpläne. Umfassende Auswertungen zeigen, dass aktuelle Sprachagenten noch nicht in der Lage sind, derart komplexe Planungsaufgaben zu bewältigen – selbst GPT-4 erreicht nur eine Erfolgsquote von 0,6 %. Sprachagenten haben Schwierigkeiten, bei der Aufgabe zu bleiben, die richtigen Werkzeuge zur Informationsbeschaffung zu nutzen oder mehrere Einschränkungen im Blick zu behalten. Dennoch stellen wir fest, dass die bloße Möglichkeit, dass Sprachagenten ein derart komplexes Problem angehen können, bereits ein bedeutender Fortschritt ist. TravelPlanner bietet eine herausfordernde, aber sinnvolle Testumgebung für zukünftige Sprachagenten.
English
Planning has been part of the core pursuit for artificial intelligence since
its conception, but earlier AI agents mostly focused on constrained settings
because many of the cognitive substrates necessary for human-level planning
have been lacking. Recently, language agents powered by large language models
(LLMs) have shown interesting capabilities such as tool use and reasoning. Are
these language agents capable of planning in more complex settings that are out
of the reach of prior AI agents? To advance this investigation, we propose
TravelPlanner, a new planning benchmark that focuses on travel planning, a
common real-world planning scenario. It provides a rich sandbox environment,
various tools for accessing nearly four million data records, and 1,225
meticulously curated planning intents and reference plans. Comprehensive
evaluations show that the current language agents are not yet capable of
handling such complex planning tasks-even GPT-4 only achieves a success rate of
0.6%. Language agents struggle to stay on task, use the right tools to collect
information, or keep track of multiple constraints. However, we note that the
mere possibility for language agents to tackle such a complex problem is in
itself non-trivial progress. TravelPlanner provides a challenging yet
meaningful testbed for future language agents.