Modelos de Lenguaje a Gran Escala como Generadores de Dominios de Planificación

Resumen

El desarrollo de modelos de dominio es uno de los pocos ámbitos que aún requieren trabajo manual en la planificación de IA. Por lo tanto, para hacer que la planificación sea más accesible, es deseable automatizar el proceso de generación de modelos de dominio. Con este fin, investigamos si los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) pueden utilizarse para generar modelos de dominio de planificación a partir de descripciones textuales simples. Específicamente, introducimos un marco para la evaluación automatizada de dominios generados por LLMs mediante la comparación de conjuntos de planes para instancias de dominio. Finalmente, realizamos un análisis empírico de 7 modelos de lenguaje de gran escala, incluyendo modelos de codificación y chat, en 9 dominios de planificación diferentes y bajo tres clases de descripciones de dominio en lenguaje natural. Nuestros resultados indican que los LLMs, particularmente aquellos con un alto número de parámetros, muestran un nivel moderado de competencia en la generación de dominios de planificación correctos a partir de descripciones en lenguaje natural. Nuestro código está disponible en https://github.com/IBM/NL2PDDL.

English

Developing domain models is one of the few remaining places that require manual human labor in AI planning. Thus, in order to make planning more accessible, it is desirable to automate the process of domain model generation. To this end, we investigate if large language models (LLMs) can be used to generate planning domain models from simple textual descriptions. Specifically, we introduce a framework for automated evaluation of LLM-generated domains by comparing the sets of plans for domain instances. Finally, we perform an empirical analysis of 7 large language models, including coding and chat models across 9 different planning domains, and under three classes of natural language domain descriptions. Our results indicate that LLMs, particularly those with high parameter counts, exhibit a moderate level of proficiency in generating correct planning domains from natural language descriptions. Our code is available at https://github.com/IBM/NL2PDDL.

Modelos de Lenguaje a Gran Escala como Generadores de Dominios de Planificación

Large Language Models as Planning Domain Generators

Resumen

Support