ChatPaper.aiChatPaper

Große Sprachmodelle als Planungsbereichsgeneratoren

Large Language Models as Planning Domain Generators

April 2, 2024
Autoren: James Oswald, Kavitha Srinivas, Harsha Kokel, Junkyu Lee, Michael Katz, Shirin Sohrabi
cs.AI

Zusammenfassung

Die Entwicklung von Domänenmodellen ist einer der wenigen verbleibenden Bereiche, die manuelle menschliche Arbeit in der KI-Planung erfordern. Daher ist es wünschenswert, den Prozess der Domänenmodellgenerierung zu automatisieren, um die Planung zugänglicher zu machen. Zu diesem Zweck untersuchen wir, ob große Sprachmodelle (LLMs) verwendet werden können, um Planungsdomänenmodelle aus einfachen textuellen Beschreibungen zu generieren. Speziell führen wir ein Rahmenwerk zur automatisierten Bewertung von von LLM generierten Domänen ein, indem wir die Sätze von Plänen für Domäneninstanzen vergleichen. Schließlich führen wir eine empirische Analyse von 7 großen Sprachmodellen durch, einschließlich Codierungs- und Chatmodellen in 9 verschiedenen Planungsbereichen und unter drei Klassen von natürlichen Sprachdomänenbeschreibungen. Unsere Ergebnisse deuten darauf hin, dass LLMs, insbesondere solche mit hoher Parameteranzahl, ein moderates Maß an Kompetenz bei der Generierung korrekter Planungsdomeinen aus natürlichsprachlichen Beschreibungen aufweisen. Unser Code ist unter https://github.com/IBM/NL2PDDL verfügbar.
English
Developing domain models is one of the few remaining places that require manual human labor in AI planning. Thus, in order to make planning more accessible, it is desirable to automate the process of domain model generation. To this end, we investigate if large language models (LLMs) can be used to generate planning domain models from simple textual descriptions. Specifically, we introduce a framework for automated evaluation of LLM-generated domains by comparing the sets of plans for domain instances. Finally, we perform an empirical analysis of 7 large language models, including coding and chat models across 9 different planning domains, and under three classes of natural language domain descriptions. Our results indicate that LLMs, particularly those with high parameter counts, exhibit a moderate level of proficiency in generating correct planning domains from natural language descriptions. Our code is available at https://github.com/IBM/NL2PDDL.

Summary

AI-Generated Summary

PDF142December 15, 2024