Большие языковые модели как генераторы областей планирования.
Large Language Models as Planning Domain Generators
April 2, 2024
Авторы: James Oswald, Kavitha Srinivas, Harsha Kokel, Junkyu Lee, Michael Katz, Shirin Sohrabi
cs.AI
Аннотация
Разработка доменных моделей - одно из немногих мест, где требуется ручной труд человека в планировании искусственного интеллекта. Поэтому для упрощения планирования желательно автоматизировать процесс создания доменных моделей. В этом контексте мы исследуем, можно ли использовать большие языковые модели (LLM) для генерации доменных моделей планирования из простых текстовых описаний. Конкретно мы представляем фреймворк для автоматизированной оценки доменов, сгенерированных LLM, путем сравнения наборов планов для экземпляров домена. Наконец, мы проводим эмпирический анализ 7 больших языковых моделей, включая модели для кодирования и чатов, в 9 различных доменов планирования и на трех классах описаний доменов естественным языком. Наши результаты показывают, что LLM, особенно те с большим количеством параметров, демонстрируют умеренный уровень квалификации в создании правильных доменов планирования из описаний на естественном языке. Наш код доступен по ссылке https://github.com/IBM/NL2PDDL.
English
Developing domain models is one of the few remaining places that require
manual human labor in AI planning. Thus, in order to make planning more
accessible, it is desirable to automate the process of domain model generation.
To this end, we investigate if large language models (LLMs) can be used to
generate planning domain models from simple textual descriptions. Specifically,
we introduce a framework for automated evaluation of LLM-generated domains by
comparing the sets of plans for domain instances. Finally, we perform an
empirical analysis of 7 large language models, including coding and chat models
across 9 different planning domains, and under three classes of natural
language domain descriptions. Our results indicate that LLMs, particularly
those with high parameter counts, exhibit a moderate level of proficiency in
generating correct planning domains from natural language descriptions. Our
code is available at https://github.com/IBM/NL2PDDL.Summary
AI-Generated Summary