Planetarium: Een Robuuste Benchmark voor het Vertalen van Tekst naar Gestructureerde Plannings-talen
Planetarium: A Rigorous Benchmark for Translating Text to Structured Planning Languages
July 3, 2024
Auteurs: Max Zuo, Francisco Piedrahita Velez, Xiaochen Li, Michael L. Littman, Stephen H. Bach
cs.AI
Samenvatting
Veel recente onderzoeken hebben het gebruik van taalmodellen voor planningsproblemen verkend.
Een onderzoekslijn richt zich op het vertalen van natuurlijke taalbeschrijvingen van plannings-taken naar gestructureerde plannings-talen, zoals de Planning Domain Definition Language (PDDL). Hoewel deze aanpak veelbelovend is, blijft het nauwkeurig meten van de kwaliteit van gegenereerde PDDL-code een aanzienlijke uitdaging. Ten eerste wordt gegenereerde PDDL-code doorgaans geëvalueerd met behulp van planningsvalidators die controleren of het probleem kan worden opgelost met een planner. Deze methode is ontoereikend omdat een taalmodel geldige PDDL-code kan genereren die niet overeenkomt met de natuurlijke taalbeschrijving van de taak. Ten tweede hebben bestaande evaluatiesets vaak natuurlijke taalbeschrijvingen van de plannings-taak die sterk lijken op de grondwaarheid PDDL, wat de uitdaging van de taak vermindert. Om deze kloof te overbruggen, introduceren we \benchmarkName, een benchmark die is ontworpen om het vermogen van taalmodellen te evalueren om PDDL-code te genereren uit natuurlijke taalbeschrijvingen van plannings-taken. We beginnen met het creëren van een PDDL-equivalentie-algoritme dat de correctheid van PDDL-code gegenereerd door taalmodellen rigoureus evalueert door deze flexibel te vergelijken met een grondwaarheid PDDL. Vervolgens presenteren we een dataset van 132.037 tekst-naar-PDDL-paren over 13 verschillende taken, met verschillende moeilijkheidsgraden. Tot slot evalueren we verschillende API-toegankelijke en open-weight taalmodellen die de complexiteit van deze taak onthullen. Bijvoorbeeld, 87,6% van de PDDL-probleembeschrijvingen gegenereerd door GPT-4o zijn syntactisch parseerbaar, 82,2% zijn geldige, oplosbare problemen, maar slechts 35,1% zijn semantisch correct, wat de noodzaak van een strengere benchmark voor dit probleem benadrukt.
English
Many recent works have explored using language models for planning problems.
One line of research focuses on translating natural language descriptions of
planning tasks into structured planning languages, such as the planning domain
definition language (PDDL). While this approach is promising, accurately
measuring the quality of generated PDDL code continues to pose significant
challenges. First, generated PDDL code is typically evaluated using planning
validators that check whether the problem can be solved with a planner. This
method is insufficient because a language model might generate valid PDDL code
that does not align with the natural language description of the task. Second,
existing evaluation sets often have natural language descriptions of the
planning task that closely resemble the ground truth PDDL, reducing the
challenge of the task. To bridge this gap, we introduce \benchmarkName, a
benchmark designed to evaluate language models' ability to generate PDDL code
from natural language descriptions of planning tasks. We begin by creating a
PDDL equivalence algorithm that rigorously evaluates the correctness of PDDL
code generated by language models by flexibly comparing it against a ground
truth PDDL. Then, we present a dataset of 132,037 text-to-PDDL pairs across
13 different tasks, with varying levels of difficulty. Finally, we evaluate
several API-access and open-weight language models that reveal this task's
complexity. For example, 87.6% of the PDDL problem descriptions generated by
GPT-4o are syntactically parseable, 82.2% are valid, solve-able problems,
but only 35.1% are semantically correct, highlighting the need for a more
rigorous benchmark for this problem.