ChatPaper.aiChatPaper

I Modelli Linguistici di Grandi Dimensioni come Generatori di Domini di Pianificazione

Large Language Models as Planning Domain Generators

April 2, 2024
Autori: James Oswald, Kavitha Srinivas, Harsha Kokel, Junkyu Lee, Michael Katz, Shirin Sohrabi
cs.AI

Abstract

Lo sviluppo di modelli di dominio rappresenta uno dei pochi ambiti che richiedono ancora un intervento manuale umano nella pianificazione AI. Pertanto, per rendere la pianificazione più accessibile, è auspicabile automatizzare il processo di generazione dei modelli di dominio. A tal fine, indaghiamo se i grandi modelli linguistici (LLM) possano essere utilizzati per generare modelli di dominio di pianificazione a partire da semplici descrizioni testuali. Nello specifico, introduciamo un framework per la valutazione automatizzata dei domini generati dagli LLM confrontando gli insiemi di piani per le istanze di dominio. Infine, conduciamo un'analisi empirica di 7 grandi modelli linguistici, inclusi modelli di codifica e di chat, su 9 diversi domini di pianificazione e sotto tre classi di descrizioni in linguaggio naturale dei domini. I nostri risultati indicano che gli LLM, in particolare quelli con un numero elevato di parametri, mostrano un livello moderato di competenza nella generazione di domini di pianificazione corretti a partire da descrizioni in linguaggio naturale. Il nostro codice è disponibile all'indirizzo https://github.com/IBM/NL2PDDL.
English
Developing domain models is one of the few remaining places that require manual human labor in AI planning. Thus, in order to make planning more accessible, it is desirable to automate the process of domain model generation. To this end, we investigate if large language models (LLMs) can be used to generate planning domain models from simple textual descriptions. Specifically, we introduce a framework for automated evaluation of LLM-generated domains by comparing the sets of plans for domain instances. Finally, we perform an empirical analysis of 7 large language models, including coding and chat models across 9 different planning domains, and under three classes of natural language domain descriptions. Our results indicate that LLMs, particularly those with high parameter counts, exhibit a moderate level of proficiency in generating correct planning domains from natural language descriptions. Our code is available at https://github.com/IBM/NL2PDDL.
PDF132February 8, 2026