Klassiek Plannen met LLM-gegenereerde Heuristieken: De Stand van de Techniek Uitdagen met Python-code

Samenvatting

De afgelopen jaren hebben grote taalmodellen (LLMs) opmerkelijke capaciteiten getoond bij diverse kunstmatige intelligentieproblemen. Ze slagen er echter niet in betrouwbaar te plannen, zelfs niet wanneer ze worden aangestuurd met een gedetailleerde definitie van de planningsopgave. Pogingen om hun planningscapaciteiten te verbeteren, zoals chain-of-thought prompting, fine-tuning en expliciet "redeneren", leveren nog steeds incorrecte plannen op en slagen meestal niet in het generaliseren naar grotere taken. In dit artikel laten we zien hoe LLMs kunnen worden gebruikt om correcte plannen te genereren, zelfs voor taken buiten de trainingsdistributie en van toenemende omvang. Voor een gegeven planningsdomein vragen we een LLM om verschillende domeinafhankelijke heuristische functies te genereren in de vorm van Python-code, deze te evalueren op een set trainings taken binnen een greedy best-first search, en de sterkste te selecteren. De resulterende LLM-gegenereerde heuristieken lossen veel meer onbekende test taken op dan state-of-the-art domeinonafhankelijke heuristieken voor klassieke planning. Ze zijn zelfs concurrerend met het sterkste leer algoritme voor domeinafhankelijke planning. Deze bevindingen zijn vooral opmerkelijk gezien het feit dat onze proof-of-concept implementatie is gebaseerd op een niet-geoptimaliseerde Python-planner en de referentiemodellen allemaal gebouwd zijn op sterk geoptimaliseerde C++-code. In sommige domeinen breiden de LLM-gegenereerde heuristieken minder toestanden uit dan de referentiemodellen, wat aantoont dat ze niet alleen efficiënt berekenbaar zijn, maar soms zelfs informatiever dan de state-of-the-art heuristieken. Over het geheel genomen laten onze resultaten zien dat het bemonsteren van een set planningsheuristische functieprogramma's de planningscapaciteiten van LLMs aanzienlijk kan verbeteren.

English

In recent years, large language models (LLMs) have shown remarkable capabilities in various artificial intelligence problems. However, they fail to plan reliably, even when prompted with a detailed definition of the planning task. Attempts to improve their planning capabilities, such as chain-of-thought prompting, fine-tuning, and explicit "reasoning" still yield incorrect plans and usually fail to generalize to larger tasks. In this paper, we show how to use LLMs to generate correct plans, even for out-of-distribution tasks of increasing size. For a given planning domain, we ask an LLM to generate several domain-dependent heuristic functions in the form of Python code, evaluate them on a set of training tasks within a greedy best-first search, and choose the strongest one. The resulting LLM-generated heuristics solve many more unseen test tasks than state-of-the-art domain-independent heuristics for classical planning. They are even competitive with the strongest learning algorithm for domain-dependent planning. These findings are especially remarkable given that our proof-of-concept implementation is based on an unoptimized Python planner and the baselines all build upon highly optimized C++ code. In some domains, the LLM-generated heuristics expand fewer states than the baselines, revealing that they are not only efficiently computable, but sometimes even more informative than the state-of-the-art heuristics. Overall, our results show that sampling a set of planning heuristic function programs can significantly improve the planning capabilities of LLMs.

Klassiek Plannen met LLM-gegenereerde Heuristieken: De Stand van de Techniek Uitdagen met Python-code

Classical Planning with LLM-Generated Heuristics: Challenging the State of the Art with Python Code

Samenvatting

Support