Klassiek Plannen met LLM-gegenereerde Heuristieken: De Stand van de Techniek Uitdagen met Python-code
Classical Planning with LLM-Generated Heuristics: Challenging the State of the Art with Python Code
March 24, 2025
Auteurs: Augusto B. Corrêa, André G. Pereira, Jendrik Seipp
cs.AI
Samenvatting
De afgelopen jaren hebben grote taalmodellen (LLMs) opmerkelijke capaciteiten getoond bij diverse kunstmatige intelligentieproblemen. Ze slagen er echter niet in betrouwbaar te plannen, zelfs niet wanneer ze worden aangestuurd met een gedetailleerde definitie van de planningsopgave. Pogingen om hun planningscapaciteiten te verbeteren, zoals chain-of-thought prompting, fine-tuning en expliciet "redeneren", leveren nog steeds incorrecte plannen op en slagen meestal niet in het generaliseren naar grotere taken. In dit artikel laten we zien hoe LLMs kunnen worden gebruikt om correcte plannen te genereren, zelfs voor taken buiten de trainingsdistributie en van toenemende omvang. Voor een gegeven planningsdomein vragen we een LLM om verschillende domeinafhankelijke heuristische functies te genereren in de vorm van Python-code, deze te evalueren op een set trainings taken binnen een greedy best-first search, en de sterkste te selecteren. De resulterende LLM-gegenereerde heuristieken lossen veel meer onbekende test taken op dan state-of-the-art domeinonafhankelijke heuristieken voor klassieke planning. Ze zijn zelfs concurrerend met het sterkste leer algoritme voor domeinafhankelijke planning. Deze bevindingen zijn vooral opmerkelijk gezien het feit dat onze proof-of-concept implementatie is gebaseerd op een niet-geoptimaliseerde Python-planner en de referentiemodellen allemaal gebouwd zijn op sterk geoptimaliseerde C++-code. In sommige domeinen breiden de LLM-gegenereerde heuristieken minder toestanden uit dan de referentiemodellen, wat aantoont dat ze niet alleen efficiënt berekenbaar zijn, maar soms zelfs informatiever dan de state-of-the-art heuristieken. Over het geheel genomen laten onze resultaten zien dat het bemonsteren van een set planningsheuristische functieprogramma's de planningscapaciteiten van LLMs aanzienlijk kan verbeteren.
English
In recent years, large language models (LLMs) have shown remarkable
capabilities in various artificial intelligence problems. However, they fail to
plan reliably, even when prompted with a detailed definition of the planning
task. Attempts to improve their planning capabilities, such as chain-of-thought
prompting, fine-tuning, and explicit "reasoning" still yield incorrect plans
and usually fail to generalize to larger tasks. In this paper, we show how to
use LLMs to generate correct plans, even for out-of-distribution tasks of
increasing size. For a given planning domain, we ask an LLM to generate several
domain-dependent heuristic functions in the form of Python code, evaluate them
on a set of training tasks within a greedy best-first search, and choose the
strongest one. The resulting LLM-generated heuristics solve many more unseen
test tasks than state-of-the-art domain-independent heuristics for classical
planning. They are even competitive with the strongest learning algorithm for
domain-dependent planning. These findings are especially remarkable given that
our proof-of-concept implementation is based on an unoptimized Python planner
and the baselines all build upon highly optimized C++ code. In some domains,
the LLM-generated heuristics expand fewer states than the baselines, revealing
that they are not only efficiently computable, but sometimes even more
informative than the state-of-the-art heuristics. Overall, our results show
that sampling a set of planning heuristic function programs can significantly
improve the planning capabilities of LLMs.Summary
AI-Generated Summary