Modelos de Linguagem de Grande Escala como Geradores de Domínios de Planejamento
Large Language Models as Planning Domain Generators
April 2, 2024
Autores: James Oswald, Kavitha Srinivas, Harsha Kokel, Junkyu Lee, Michael Katz, Shirin Sohrabi
cs.AI
Resumo
O desenvolvimento de modelos de domínio é um dos poucos processos que ainda exigem trabalho manual no planejamento de IA. Portanto, para tornar o planejamento mais acessível, é desejável automatizar a geração de modelos de domínio. Com esse objetivo, investigamos se modelos de linguagem de grande escala (LLMs) podem ser usados para gerar modelos de domínio de planejamento a partir de descrições textuais simples. Especificamente, introduzimos um framework para avaliação automatizada de domínios gerados por LLMs, comparando os conjuntos de planos para instâncias de domínio. Por fim, realizamos uma análise empírica de 7 modelos de linguagem de grande escala, incluindo modelos de codificação e de chat, em 9 domínios de planejamento diferentes e sob três classes de descrições de domínio em linguagem natural. Nossos resultados indicam que os LLMs, particularmente aqueles com alto número de parâmetros, exibem um nível moderado de proficiência na geração de domínios de planejamento corretos a partir de descrições em linguagem natural. Nosso código está disponível em https://github.com/IBM/NL2PDDL.
English
Developing domain models is one of the few remaining places that require
manual human labor in AI planning. Thus, in order to make planning more
accessible, it is desirable to automate the process of domain model generation.
To this end, we investigate if large language models (LLMs) can be used to
generate planning domain models from simple textual descriptions. Specifically,
we introduce a framework for automated evaluation of LLM-generated domains by
comparing the sets of plans for domain instances. Finally, we perform an
empirical analysis of 7 large language models, including coding and chat models
across 9 different planning domains, and under three classes of natural
language domain descriptions. Our results indicate that LLMs, particularly
those with high parameter counts, exhibit a moderate level of proficiency in
generating correct planning domains from natural language descriptions. Our
code is available at https://github.com/IBM/NL2PDDL.