Planetarium : Un Benchmark Rigoureux pour la Traduction de Texte en Langages de Planification Structurés

papers.abstract

De nombreux travaux récents ont exploré l'utilisation de modèles de langage pour les problèmes de planification. Une ligne de recherche se concentre sur la traduction de descriptions en langage naturel de tâches de planification en langages de planification structurés, tels que le langage de définition de domaine de planification (PDDL). Bien que cette approche soit prometteuse, l'évaluation précise de la qualité du code PDDL généré continue de poser des défis importants. Premièrement, le code PDDL généré est généralement évalué à l'aide de validateurs de planification qui vérifient si le problème peut être résolu avec un planificateur. Cette méthode est insuffisante car un modèle de langage pourrait générer un code PDDL valide qui ne correspond pas à la description en langage naturel de la tâche. Deuxièmement, les ensembles d'évaluation existants ont souvent des descriptions en langage naturel de la tâche de planification qui ressemblent de près à la vérité terrain PDDL, réduisant ainsi la difficulté de la tâche. Pour combler cette lacune, nous introduisons \benchmarkName, un benchmark conçu pour évaluer la capacité des modèles de langage à générer du code PDDL à partir de descriptions en langage naturel de tâches de planification. Nous commençons par créer un algorithme d'équivalence PDDL qui évalue rigoureusement la correction du code PDDL généré par les modèles de langage en le comparant de manière flexible à une vérité terrain PDDL. Ensuite, nous présentons un ensemble de données de 132 037 paires texte-PDDL couvrant 13 tâches différentes, avec des niveaux de difficulté variés. Enfin, nous évaluons plusieurs modèles de langage accessibles via API et à poids ouvert, révélant la complexité de cette tâche. Par exemple, 87,6 % des descriptions de problèmes PDDL générées par GPT-4o sont syntaxiquement analysables, 82,2 % sont des problèmes valides et résolubles, mais seulement 35,1 % sont sémantiquement corrects, soulignant la nécessité d'un benchmark plus rigoureux pour ce problème.

English

Many recent works have explored using language models for planning problems. One line of research focuses on translating natural language descriptions of planning tasks into structured planning languages, such as the planning domain definition language (PDDL). While this approach is promising, accurately measuring the quality of generated PDDL code continues to pose significant challenges. First, generated PDDL code is typically evaluated using planning validators that check whether the problem can be solved with a planner. This method is insufficient because a language model might generate valid PDDL code that does not align with the natural language description of the task. Second, existing evaluation sets often have natural language descriptions of the planning task that closely resemble the ground truth PDDL, reducing the challenge of the task. To bridge this gap, we introduce \benchmarkName, a benchmark designed to evaluate language models' ability to generate PDDL code from natural language descriptions of planning tasks. We begin by creating a PDDL equivalence algorithm that rigorously evaluates the correctness of PDDL code generated by language models by flexibly comparing it against a ground truth PDDL. Then, we present a dataset of 132,037 text-to-PDDL pairs across 13 different tasks, with varying levels of difficulty. Finally, we evaluate several API-access and open-weight language models that reveal this task's complexity. For example, 87.6% of the PDDL problem descriptions generated by GPT-4o are syntactically parseable, 82.2% are valid, solve-able problems, but only 35.1% are semantically correct, highlighting the need for a more rigorous benchmark for this problem.

Planetarium : Un Benchmark Rigoureux pour la Traduction de Texte en Langages de Planification Structurés

Planetarium: A Rigorous Benchmark for Translating Text to Structured Planning Languages

papers.abstract

Support