Modelos de Lenguaje a Gran Escala como Generadores de Dominios de Planificación
Large Language Models as Planning Domain Generators
April 2, 2024
Autores: James Oswald, Kavitha Srinivas, Harsha Kokel, Junkyu Lee, Michael Katz, Shirin Sohrabi
cs.AI
Resumen
El desarrollo de modelos de dominio es uno de los pocos ámbitos que aún requieren trabajo manual en la planificación de IA. Por lo tanto, para hacer que la planificación sea más accesible, es deseable automatizar el proceso de generación de modelos de dominio. Con este fin, investigamos si los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) pueden utilizarse para generar modelos de dominio de planificación a partir de descripciones textuales simples. Específicamente, introducimos un marco para la evaluación automatizada de dominios generados por LLMs mediante la comparación de conjuntos de planes para instancias de dominio. Finalmente, realizamos un análisis empírico de 7 modelos de lenguaje de gran escala, incluyendo modelos de codificación y chat, en 9 dominios de planificación diferentes y bajo tres clases de descripciones de dominio en lenguaje natural. Nuestros resultados indican que los LLMs, particularmente aquellos con un alto número de parámetros, muestran un nivel moderado de competencia en la generación de dominios de planificación correctos a partir de descripciones en lenguaje natural. Nuestro código está disponible en https://github.com/IBM/NL2PDDL.
English
Developing domain models is one of the few remaining places that require
manual human labor in AI planning. Thus, in order to make planning more
accessible, it is desirable to automate the process of domain model generation.
To this end, we investigate if large language models (LLMs) can be used to
generate planning domain models from simple textual descriptions. Specifically,
we introduce a framework for automated evaluation of LLM-generated domains by
comparing the sets of plans for domain instances. Finally, we perform an
empirical analysis of 7 large language models, including coding and chat models
across 9 different planning domains, and under three classes of natural
language domain descriptions. Our results indicate that LLMs, particularly
those with high parameter counts, exhibit a moderate level of proficiency in
generating correct planning domains from natural language descriptions. Our
code is available at https://github.com/IBM/NL2PDDL.Summary
AI-Generated Summary