Grote Taalmodellen als Generatoren van Planningsdomeinen
Large Language Models as Planning Domain Generators
April 2, 2024
Auteurs: James Oswald, Kavitha Srinivas, Harsha Kokel, Junkyu Lee, Michael Katz, Shirin Sohrabi
cs.AI
Samenvatting
Het ontwikkelen van domeinmodellen is een van de weinige overgebleven gebieden die handmatige menselijke arbeid vereisen binnen AI-planning. Om planning daarom toegankelijker te maken, is het wenselijk om het proces van domeinmodelgeneratie te automatiseren. Hiertoe onderzoeken we of grote taalmodellen (LLMs) kunnen worden gebruikt om planningsdomeinmodellen te genereren vanuit eenvoudige tekstuele beschrijvingen. Specifiek introduceren we een raamwerk voor de geautomatiseerde evaluatie van door LLM gegenereerde domeinen door de sets van plannen voor domeininstanties te vergelijken. Tot slot voeren we een empirische analyse uit van 7 grote taalmodellen, waaronder coderings- en chatmodellen, over 9 verschillende planningsdomeinen en onder drie klassen van natuurlijke taalbeschrijvingen van domeinen. Onze resultaten geven aan dat LLMs, met name die met een hoog aantal parameters, een matig niveau van vaardigheid vertonen in het genereren van correcte planningsdomeinen vanuit natuurlijke taalbeschrijvingen. Onze code is beschikbaar op https://github.com/IBM/NL2PDDL.
English
Developing domain models is one of the few remaining places that require
manual human labor in AI planning. Thus, in order to make planning more
accessible, it is desirable to automate the process of domain model generation.
To this end, we investigate if large language models (LLMs) can be used to
generate planning domain models from simple textual descriptions. Specifically,
we introduce a framework for automated evaluation of LLM-generated domains by
comparing the sets of plans for domain instances. Finally, we perform an
empirical analysis of 7 large language models, including coding and chat models
across 9 different planning domains, and under three classes of natural
language domain descriptions. Our results indicate that LLMs, particularly
those with high parameter counts, exhibit a moderate level of proficiency in
generating correct planning domains from natural language descriptions. Our
code is available at https://github.com/IBM/NL2PDDL.