Planetarium: Un banco de pruebas riguroso para traducir texto a lenguajes de planificación estructurados
Planetarium: A Rigorous Benchmark for Translating Text to Structured Planning Languages
July 3, 2024
Autores: Max Zuo, Francisco Piedrahita Velez, Xiaochen Li, Michael L. Littman, Stephen H. Bach
cs.AI
Resumen
Muchos trabajos recientes han explorado el uso de modelos de lenguaje para problemas de planificación. Una línea de investigación se centra en traducir descripciones en lenguaje natural de tareas de planificación a lenguajes estructurados de planificación, como el lenguaje de definición de dominio de planificación (PDDL). Si bien este enfoque es prometedor, medir con precisión la calidad del código PDDL generado sigue planteando desafíos significativos. En primer lugar, el código PDDL generado se evalúa típicamente utilizando validadores de planificación que verifican si el problema se puede resolver con un planificador. Este método es insuficiente porque un modelo de lenguaje podría generar código PDDL válido que no se alinea con la descripción en lenguaje natural de la tarea. En segundo lugar, los conjuntos de evaluación existentes a menudo tienen descripciones en lenguaje natural de la tarea de planificación que se asemejan estrechamente al PDDL de referencia, lo que reduce el desafío de la tarea. Para cerrar esta brecha, presentamos \benchmarkName, un banco de pruebas diseñado para evaluar la capacidad de los modelos de lenguaje para generar código PDDL a partir de descripciones en lenguaje natural de tareas de planificación. Comenzamos creando un algoritmo de equivalencia PDDL que evalúa rigurosamente la corrección del código PDDL generado por los modelos de lenguaje al compararlo de manera flexible con un PDDL de referencia. Luego, presentamos un conjunto de datos de 132,037 pares de texto a PDDL en 13 tareas diferentes, con diversos niveles de dificultad. Finalmente, evaluamos varios modelos de lenguaje con acceso a API y de peso abierto que revelan la complejidad de esta tarea. Por ejemplo, el 87.6% de las descripciones de problemas PDDL generadas por GPT-4o son sintácticamente analizables, el 82.2% son problemas válidos y resolubles, pero solo el 35.1% son semánticamente correctos, resaltando la necesidad de un banco de pruebas más riguroso para este problema.
English
Many recent works have explored using language models for planning problems.
One line of research focuses on translating natural language descriptions of
planning tasks into structured planning languages, such as the planning domain
definition language (PDDL). While this approach is promising, accurately
measuring the quality of generated PDDL code continues to pose significant
challenges. First, generated PDDL code is typically evaluated using planning
validators that check whether the problem can be solved with a planner. This
method is insufficient because a language model might generate valid PDDL code
that does not align with the natural language description of the task. Second,
existing evaluation sets often have natural language descriptions of the
planning task that closely resemble the ground truth PDDL, reducing the
challenge of the task. To bridge this gap, we introduce \benchmarkName, a
benchmark designed to evaluate language models' ability to generate PDDL code
from natural language descriptions of planning tasks. We begin by creating a
PDDL equivalence algorithm that rigorously evaluates the correctness of PDDL
code generated by language models by flexibly comparing it against a ground
truth PDDL. Then, we present a dataset of 132,037 text-to-PDDL pairs across
13 different tasks, with varying levels of difficulty. Finally, we evaluate
several API-access and open-weight language models that reveal this task's
complexity. For example, 87.6% of the PDDL problem descriptions generated by
GPT-4o are syntactically parseable, 82.2% are valid, solve-able problems,
but only 35.1% are semantically correct, highlighting the need for a more
rigorous benchmark for this problem.Summary
AI-Generated Summary