Planetarium: Um Benchmark Rigoroso para Tradução de Texto para Linguagens de Planejamento Estruturadas
Planetarium: A Rigorous Benchmark for Translating Text to Structured Planning Languages
July 3, 2024
Autores: Max Zuo, Francisco Piedrahita Velez, Xiaochen Li, Michael L. Littman, Stephen H. Bach
cs.AI
Resumo
Muitos trabalhos recentes têm explorado o uso de modelos de linguagem para problemas de planejamento. Uma linha de pesquisa foca na tradução de descrições em linguagem natural de tarefas de planejamento em linguagens estruturadas de planejamento, como a linguagem de definição de domínio de planejamento (PDDL). Embora essa abordagem seja promissora, medir com precisão a qualidade do código PDDL gerado continua a apresentar desafios significativos. Primeiramente, o código PDDL gerado é tipicamente avaliado usando validadores de planejamento que verificam se o problema pode ser resolvido com um planejador. Esse método é insuficiente, pois um modelo de linguagem pode gerar código PDDL válido que não está alinhado com a descrição em linguagem natural da tarefa. Em segundo lugar, os conjuntos de avaliação existentes frequentemente possuem descrições em linguagem natural da tarefa de planejamento que se assemelham de perto ao PDDL verdadeiro, reduzindo o desafio da tarefa. Para preencher essa lacuna, introduzimos o \benchmarkName, um benchmark projetado para avaliar a capacidade de modelos de linguagem de gerar código PDDL a partir de descrições em linguagem natural de tarefas de planejamento. Começamos criando um algoritmo de equivalência PDDL que avalia rigorosamente a correção do código PDDL gerado por modelos de linguagem, comparando-o de forma flexível com um PDDL verdadeiro. Em seguida, apresentamos um conjunto de dados de 132.037 pares de texto-PDDL em 13 tarefas diferentes, com diferentes níveis de dificuldade. Por fim, avaliamos vários modelos de linguagem com acesso à API e de peso aberto que revelam a complexidade dessa tarefa. Por exemplo, 87,6% das descrições de problemas PDDL geradas pelo GPT-4o são sintaticamente analisáveis, 82,2% são problemas válidos e solucionáveis, mas apenas 35,1% são semanticamente corretos, destacando a necessidade de um benchmark mais rigoroso para esse problema.
English
Many recent works have explored using language models for planning problems.
One line of research focuses on translating natural language descriptions of
planning tasks into structured planning languages, such as the planning domain
definition language (PDDL). While this approach is promising, accurately
measuring the quality of generated PDDL code continues to pose significant
challenges. First, generated PDDL code is typically evaluated using planning
validators that check whether the problem can be solved with a planner. This
method is insufficient because a language model might generate valid PDDL code
that does not align with the natural language description of the task. Second,
existing evaluation sets often have natural language descriptions of the
planning task that closely resemble the ground truth PDDL, reducing the
challenge of the task. To bridge this gap, we introduce \benchmarkName, a
benchmark designed to evaluate language models' ability to generate PDDL code
from natural language descriptions of planning tasks. We begin by creating a
PDDL equivalence algorithm that rigorously evaluates the correctness of PDDL
code generated by language models by flexibly comparing it against a ground
truth PDDL. Then, we present a dataset of 132,037 text-to-PDDL pairs across
13 different tasks, with varying levels of difficulty. Finally, we evaluate
several API-access and open-weight language models that reveal this task's
complexity. For example, 87.6% of the PDDL problem descriptions generated by
GPT-4o are syntactically parseable, 82.2% are valid, solve-able problems,
but only 35.1% are semantically correct, highlighting the need for a more
rigorous benchmark for this problem.