Les grands modèles de langage en tant que générateurs de domaines de planification
Large Language Models as Planning Domain Generators
April 2, 2024
Auteurs: James Oswald, Kavitha Srinivas, Harsha Kokel, Junkyu Lee, Michael Katz, Shirin Sohrabi
cs.AI
Résumé
Le développement de modèles de domaine reste l'un des rares domaines nécessitant un travail manuel humain dans la planification en IA. Ainsi, afin de rendre la planification plus accessible, il est souhaitable d'automatiser le processus de génération de modèles de domaine. Dans cette optique, nous explorons si les grands modèles de langage (LLMs) peuvent être utilisés pour générer des modèles de domaine de planification à partir de descriptions textuelles simples. Plus précisément, nous introduisons un cadre pour l'évaluation automatisée des domaines générés par les LLMs en comparant les ensembles de plans pour les instances de domaine. Enfin, nous effectuons une analyse empirique de 7 grands modèles de langage, incluant des modèles de codage et de conversation, sur 9 domaines de planification différents, et sous trois classes de descriptions de domaine en langage naturel. Nos résultats indiquent que les LLMs, en particulier ceux avec un nombre élevé de paramètres, montrent un niveau modéré de compétence dans la génération de domaines de planification corrects à partir de descriptions en langage naturel. Notre code est disponible à l'adresse suivante : https://github.com/IBM/NL2PDDL.
English
Developing domain models is one of the few remaining places that require
manual human labor in AI planning. Thus, in order to make planning more
accessible, it is desirable to automate the process of domain model generation.
To this end, we investigate if large language models (LLMs) can be used to
generate planning domain models from simple textual descriptions. Specifically,
we introduce a framework for automated evaluation of LLM-generated domains by
comparing the sets of plans for domain instances. Finally, we perform an
empirical analysis of 7 large language models, including coding and chat models
across 9 different planning domains, and under three classes of natural
language domain descriptions. Our results indicate that LLMs, particularly
those with high parameter counts, exhibit a moderate level of proficiency in
generating correct planning domains from natural language descriptions. Our
code is available at https://github.com/IBM/NL2PDDL.Summary
AI-Generated Summary