Planetarium: Un Benchmark Rigoroso per la Traduzione di Testo in Linguaggi Strutturati di Pianificazione
Planetarium: A Rigorous Benchmark for Translating Text to Structured Planning Languages
July 3, 2024
Autori: Max Zuo, Francisco Piedrahita Velez, Xiaochen Li, Michael L. Littman, Stephen H. Bach
cs.AI
Abstract
Molti lavori recenti hanno esplorato l'uso di modelli linguistici per problemi di pianificazione. Una linea di ricerca si concentra sulla traduzione di descrizioni in linguaggio naturale di compiti di pianificazione in linguaggi di pianificazione strutturati, come il Planning Domain Definition Language (PDDL). Sebbene questo approccio sia promettente, misurare accuratamente la qualità del codice PDDL generato continua a rappresentare una sfida significativa. In primo luogo, il codice PDDL generato viene tipicamente valutato utilizzando validatori di pianificazione che verificano se il problema può essere risolto con un planner. Questo metodo è insufficiente perché un modello linguistico potrebbe generare codice PDDL valido che non corrisponde alla descrizione in linguaggio naturale del compito. In secondo luogo, i set di valutazione esistenti spesso hanno descrizioni in linguaggio naturale del compito di pianificazione che assomigliano molto al PDDL di riferimento, riducendo la difficoltà del compito. Per colmare questa lacuna, introduciamo \benchmarkName, un benchmark progettato per valutare la capacità dei modelli linguistici di generare codice PDDL a partire da descrizioni in linguaggio naturale di compiti di pianificazione. Iniziamo creando un algoritmo di equivalenza PDDL che valuta rigorosamente la correttezza del codice PDDL generato dai modelli linguistici confrontandolo in modo flessibile con un PDDL di riferimento. Successivamente, presentiamo un dataset di 132.037 coppie testo-PDDL relative a 13 diversi compiti, con livelli di difficoltà variabili. Infine, valutiamo diversi modelli linguistici ad accesso API e open-weight che rivelano la complessità di questo compito. Ad esempio, l'87,6% delle descrizioni di problemi PDDL generate da GPT-4o sono sintatticamente analizzabili, l'82,2% sono problemi validi e risolvibili, ma solo il 35,1% sono semanticamente corretti, evidenziando la necessità di un benchmark più rigoroso per questo problema.
English
Many recent works have explored using language models for planning problems.
One line of research focuses on translating natural language descriptions of
planning tasks into structured planning languages, such as the planning domain
definition language (PDDL). While this approach is promising, accurately
measuring the quality of generated PDDL code continues to pose significant
challenges. First, generated PDDL code is typically evaluated using planning
validators that check whether the problem can be solved with a planner. This
method is insufficient because a language model might generate valid PDDL code
that does not align with the natural language description of the task. Second,
existing evaluation sets often have natural language descriptions of the
planning task that closely resemble the ground truth PDDL, reducing the
challenge of the task. To bridge this gap, we introduce \benchmarkName, a
benchmark designed to evaluate language models' ability to generate PDDL code
from natural language descriptions of planning tasks. We begin by creating a
PDDL equivalence algorithm that rigorously evaluates the correctness of PDDL
code generated by language models by flexibly comparing it against a ground
truth PDDL. Then, we present a dataset of 132,037 text-to-PDDL pairs across
13 different tasks, with varying levels of difficulty. Finally, we evaluate
several API-access and open-weight language models that reveal this task's
complexity. For example, 87.6% of the PDDL problem descriptions generated by
GPT-4o are syntactically parseable, 82.2% are valid, solve-able problems,
but only 35.1% are semantically correct, highlighting the need for a more
rigorous benchmark for this problem.