Planetarium: Un banco de pruebas riguroso para traducir texto a lenguajes de planificación estructurados

Resumen

Muchos trabajos recientes han explorado el uso de modelos de lenguaje para problemas de planificación. Una línea de investigación se centra en traducir descripciones en lenguaje natural de tareas de planificación a lenguajes estructurados de planificación, como el lenguaje de definición de dominio de planificación (PDDL). Si bien este enfoque es prometedor, medir con precisión la calidad del código PDDL generado sigue planteando desafíos significativos. En primer lugar, el código PDDL generado se evalúa típicamente utilizando validadores de planificación que verifican si el problema se puede resolver con un planificador. Este método es insuficiente porque un modelo de lenguaje podría generar código PDDL válido que no se alinea con la descripción en lenguaje natural de la tarea. En segundo lugar, los conjuntos de evaluación existentes a menudo tienen descripciones en lenguaje natural de la tarea de planificación que se asemejan estrechamente al PDDL de referencia, lo que reduce el desafío de la tarea. Para cerrar esta brecha, presentamos \benchmarkName, un banco de pruebas diseñado para evaluar la capacidad de los modelos de lenguaje para generar código PDDL a partir de descripciones en lenguaje natural de tareas de planificación. Comenzamos creando un algoritmo de equivalencia PDDL que evalúa rigurosamente la corrección del código PDDL generado por los modelos de lenguaje al compararlo de manera flexible con un PDDL de referencia. Luego, presentamos un conjunto de datos de 132,037 pares de texto a PDDL en 13 tareas diferentes, con diversos niveles de dificultad. Finalmente, evaluamos varios modelos de lenguaje con acceso a API y de peso abierto que revelan la complejidad de esta tarea. Por ejemplo, el 87.6% de las descripciones de problemas PDDL generadas por GPT-4o son sintácticamente analizables, el 82.2% son problemas válidos y resolubles, pero solo el 35.1% son semánticamente correctos, resaltando la necesidad de un banco de pruebas más riguroso para este problema.

English

Many recent works have explored using language models for planning problems. One line of research focuses on translating natural language descriptions of planning tasks into structured planning languages, such as the planning domain definition language (PDDL). While this approach is promising, accurately measuring the quality of generated PDDL code continues to pose significant challenges. First, generated PDDL code is typically evaluated using planning validators that check whether the problem can be solved with a planner. This method is insufficient because a language model might generate valid PDDL code that does not align with the natural language description of the task. Second, existing evaluation sets often have natural language descriptions of the planning task that closely resemble the ground truth PDDL, reducing the challenge of the task. To bridge this gap, we introduce \benchmarkName, a benchmark designed to evaluate language models' ability to generate PDDL code from natural language descriptions of planning tasks. We begin by creating a PDDL equivalence algorithm that rigorously evaluates the correctness of PDDL code generated by language models by flexibly comparing it against a ground truth PDDL. Then, we present a dataset of 132,037 text-to-PDDL pairs across 13 different tasks, with varying levels of difficulty. Finally, we evaluate several API-access and open-weight language models that reveal this task's complexity. For example, 87.6% of the PDDL problem descriptions generated by GPT-4o are syntactically parseable, 82.2% are valid, solve-able problems, but only 35.1% are semantically correct, highlighting the need for a more rigorous benchmark for this problem.

Planetarium: Un banco de pruebas riguroso para traducir texto a lenguajes de planificación estructurados

Planetarium: A Rigorous Benchmark for Translating Text to Structured Planning Languages

Resumen

Support