ChatPaper.aiChatPaper

Планетарий: Строгий бенчмарк для перевода текста на структурированные языки планирования

Planetarium: A Rigorous Benchmark for Translating Text to Structured Planning Languages

July 3, 2024
Авторы: Max Zuo, Francisco Piedrahita Velez, Xiaochen Li, Michael L. Littman, Stephen H. Bach
cs.AI

Аннотация

Во многих недавних работах исследуется использование языковых моделей для задач планирования. Одно направление исследований сосредоточено на переводе естественноязыковых описаний планировочных задач на структурированные языки планирования, такие как язык определения области планирования (PDDL). Хотя этот подход обещающий, точное измерение качества сгенерированного кода PDDL по-прежнему представляет существенные трудности. Во-первых, сгенерированный код PDDL обычно оценивается с использованием проверяющих планировщиков, которые проверяют, может ли проблема быть решена с помощью планировщика. Этот метод недостаточен, поскольку языковая модель может генерировать допустимый код PDDL, который не соответствует естественноязыковому описанию задачи. Во-вторых, существующие наборы оценки часто имеют естественноязыковые описания планировочной задачи, которые тесно напоминают истинный PDDL, уменьшая сложность задачи. Для преодоления этого разрыва мы представляем \benchmarkName, бенчмарк, разработанный для оценки способности языковых моделей генерировать код PDDL из естественноязыковых описаний планировочных задач. Мы начинаем с создания алгоритма эквивалентности PDDL, который строго оценивает правильность сгенерированного языковыми моделями кода PDDL, гибко сравнивая его с истинным PDDL. Затем мы представляем набор данных из 132 037 пар текст-PDDL по 13 различным задачам с разными уровнями сложности. Наконец, мы оцениваем несколько API-доступных и открытых языковых моделей, которые раскрывают сложность этой задачи. Например, 87,6% описаний проблем PDDL, сгенерированных GPT-4o, синтаксически разбираемы, 82,2% являются допустимыми, решаемыми проблемами, но только 35,1% семантически правильны, что подчеркивает необходимость более строгого бенчмарка для этой задачи.
English
Many recent works have explored using language models for planning problems. One line of research focuses on translating natural language descriptions of planning tasks into structured planning languages, such as the planning domain definition language (PDDL). While this approach is promising, accurately measuring the quality of generated PDDL code continues to pose significant challenges. First, generated PDDL code is typically evaluated using planning validators that check whether the problem can be solved with a planner. This method is insufficient because a language model might generate valid PDDL code that does not align with the natural language description of the task. Second, existing evaluation sets often have natural language descriptions of the planning task that closely resemble the ground truth PDDL, reducing the challenge of the task. To bridge this gap, we introduce \benchmarkName, a benchmark designed to evaluate language models' ability to generate PDDL code from natural language descriptions of planning tasks. We begin by creating a PDDL equivalence algorithm that rigorously evaluates the correctness of PDDL code generated by language models by flexibly comparing it against a ground truth PDDL. Then, we present a dataset of 132,037 text-to-PDDL pairs across 13 different tasks, with varying levels of difficulty. Finally, we evaluate several API-access and open-weight language models that reveal this task's complexity. For example, 87.6% of the PDDL problem descriptions generated by GPT-4o are syntactically parseable, 82.2% are valid, solve-able problems, but only 35.1% are semantically correct, highlighting the need for a more rigorous benchmark for this problem.

Summary

AI-Generated Summary

PDF201November 28, 2024