Planetarium: Ein anspruchsvoller Maßstab für die Übersetzung von Text in strukturierte Planungssprachen.

papers.abstract

Viele aktuelle Arbeiten haben die Verwendung von Sprachmodellen für Planungsprobleme untersucht. Eine Forschungsrichtung konzentriert sich darauf, natürlichsprachliche Beschreibungen von Planungsaufgaben in strukturierte Planungssprachen zu übersetzen, wie beispielsweise die Planungsbereichsdefinitionsprache (PDDL). Obwohl dieser Ansatz vielversprechend ist, stellt die genaue Messung der Qualität des generierten PDDL-Codes weiterhin erhebliche Herausforderungen dar. Erstens wird der generierte PDDL-Code in der Regel mithilfe von Planungsvalidatoren bewertet, die überprüfen, ob das Problem mit einem Planer gelöst werden kann. Diese Methode ist unzureichend, da ein Sprachmodell gültigen PDDL-Code generieren könnte, der nicht mit der natürlichsprachlichen Beschreibung der Aufgabe übereinstimmt. Zweitens ähneln die vorhandenen Bewertungssätze oft den natürlichsprachlichen Beschreibungen der Planungsaufgabe, die der Ground-Truth-PDDL stark ähneln, was die Herausforderung der Aufgabe verringert. Um diese Lücke zu schließen, stellen wir \benchmarkName vor, einen Benchmark, der entwickelt wurde, um die Fähigkeit von Sprachmodellen zu bewerten, PDDL-Code aus natürlichsprachlichen Beschreibungen von Planungsaufgaben zu generieren. Wir beginnen mit der Erstellung eines PDDL-Äquivalenzalgorithmus, der die Korrektheit des von Sprachmodellen generierten PDDL-Codes rigoros bewertet, indem er ihn flexibel mit einem Ground-Truth-PDDL vergleicht. Anschließend präsentieren wir einen Datensatz von 132.037 Text-PDDL-Paaren über 13 verschiedene Aufgaben mit unterschiedlichen Schwierigkeitsgraden. Schließlich evaluieren wir mehrere API-Zugriffs- und Open-Weight-Sprachmodelle, die die Komplexität dieser Aufgabe aufzeigen. Zum Beispiel sind 87,6% der von GPT-4o generierten PDDL-Problem-beschreibungen syntaktisch analysierbar, 82,2% sind gültige, lösbar Probleme, aber nur 35,1% sind semantisch korrekt, was die Notwendigkeit eines strengeren Benchmarks für dieses Problem verdeutlicht.

English

Many recent works have explored using language models for planning problems. One line of research focuses on translating natural language descriptions of planning tasks into structured planning languages, such as the planning domain definition language (PDDL). While this approach is promising, accurately measuring the quality of generated PDDL code continues to pose significant challenges. First, generated PDDL code is typically evaluated using planning validators that check whether the problem can be solved with a planner. This method is insufficient because a language model might generate valid PDDL code that does not align with the natural language description of the task. Second, existing evaluation sets often have natural language descriptions of the planning task that closely resemble the ground truth PDDL, reducing the challenge of the task. To bridge this gap, we introduce \benchmarkName, a benchmark designed to evaluate language models' ability to generate PDDL code from natural language descriptions of planning tasks. We begin by creating a PDDL equivalence algorithm that rigorously evaluates the correctness of PDDL code generated by language models by flexibly comparing it against a ground truth PDDL. Then, we present a dataset of 132,037 text-to-PDDL pairs across 13 different tasks, with varying levels of difficulty. Finally, we evaluate several API-access and open-weight language models that reveal this task's complexity. For example, 87.6% of the PDDL problem descriptions generated by GPT-4o are syntactically parseable, 82.2% are valid, solve-able problems, but only 35.1% are semantically correct, highlighting the need for a more rigorous benchmark for this problem.

Planetarium: Ein anspruchsvoller Maßstab für die Übersetzung von Text in strukturierte Planungssprachen.

Planetarium: A Rigorous Benchmark for Translating Text to Structured Planning Languages

papers.abstract

Support