ChatPaper.aiChatPaper

Les grands modèles de langage en tant que générateurs de domaines de planification

Large Language Models as Planning Domain Generators

April 2, 2024
Auteurs: James Oswald, Kavitha Srinivas, Harsha Kokel, Junkyu Lee, Michael Katz, Shirin Sohrabi
cs.AI

Résumé

Le développement de modèles de domaine reste l'un des rares domaines nécessitant un travail manuel humain dans la planification en IA. Ainsi, afin de rendre la planification plus accessible, il est souhaitable d'automatiser le processus de génération de modèles de domaine. Dans cette optique, nous explorons si les grands modèles de langage (LLMs) peuvent être utilisés pour générer des modèles de domaine de planification à partir de descriptions textuelles simples. Plus précisément, nous introduisons un cadre pour l'évaluation automatisée des domaines générés par les LLMs en comparant les ensembles de plans pour les instances de domaine. Enfin, nous effectuons une analyse empirique de 7 grands modèles de langage, incluant des modèles de codage et de conversation, sur 9 domaines de planification différents, et sous trois classes de descriptions de domaine en langage naturel. Nos résultats indiquent que les LLMs, en particulier ceux avec un nombre élevé de paramètres, montrent un niveau modéré de compétence dans la génération de domaines de planification corrects à partir de descriptions en langage naturel. Notre code est disponible à l'adresse suivante : https://github.com/IBM/NL2PDDL.
English
Developing domain models is one of the few remaining places that require manual human labor in AI planning. Thus, in order to make planning more accessible, it is desirable to automate the process of domain model generation. To this end, we investigate if large language models (LLMs) can be used to generate planning domain models from simple textual descriptions. Specifically, we introduce a framework for automated evaluation of LLM-generated domains by comparing the sets of plans for domain instances. Finally, we perform an empirical analysis of 7 large language models, including coding and chat models across 9 different planning domains, and under three classes of natural language domain descriptions. Our results indicate that LLMs, particularly those with high parameter counts, exhibit a moderate level of proficiency in generating correct planning domains from natural language descriptions. Our code is available at https://github.com/IBM/NL2PDDL.

Summary

AI-Generated Summary

PDF142December 15, 2024