Planification Classique avec Heuristiques Générées par LLM : Défier l'État de l'Art avec du Code Python

papers.abstract

Ces dernières années, les grands modèles de langage (LLMs) ont démontré des capacités remarquables pour résoudre divers problèmes d'intelligence artificielle. Cependant, ils échouent à planifier de manière fiable, même lorsqu'ils sont guidés par une définition détaillée de la tâche de planification. Les tentatives pour améliorer leurs capacités de planification, telles que l'incitation en chaîne de pensée, le fine-tuning et le "raisonnement" explicite, produisent encore des plans incorrects et échouent généralement à généraliser pour des tâches plus vastes. Dans cet article, nous montrons comment utiliser les LLMs pour générer des plans corrects, même pour des tâches hors distribution de taille croissante. Pour un domaine de planification donné, nous demandons à un LLM de générer plusieurs fonctions heuristiques dépendantes du domaine sous forme de code Python, de les évaluer sur un ensemble de tâches d'entraînement dans le cadre d'une recherche gloutonne du meilleur d'abord, et de sélectionner la plus performante. Les heuristiques générées par les LLMs résolvent bien plus de tâches de test inédites que les heuristiques indépendantes du domaine de pointe pour la planification classique. Elles rivalisent même avec l'algorithme d'apprentissage le plus performant pour la planification dépendante du domaine. Ces résultats sont d'autant plus remarquables que notre implémentation de preuve de concept repose sur un planificateur Python non optimisé, tandis que les références s'appuient sur du code C++ hautement optimisé. Dans certains domaines, les heuristiques générées par les LLMs explorent moins d'états que les références, révélant qu'elles sont non seulement efficaces à calculer, mais parfois même plus informatives que les heuristiques de pointe. Globalement, nos résultats montrent que l'échantillonnage d'un ensemble de programmes de fonctions heuristiques de planification peut considérablement améliorer les capacités de planification des LLMs.

English

In recent years, large language models (LLMs) have shown remarkable capabilities in various artificial intelligence problems. However, they fail to plan reliably, even when prompted with a detailed definition of the planning task. Attempts to improve their planning capabilities, such as chain-of-thought prompting, fine-tuning, and explicit "reasoning" still yield incorrect plans and usually fail to generalize to larger tasks. In this paper, we show how to use LLMs to generate correct plans, even for out-of-distribution tasks of increasing size. For a given planning domain, we ask an LLM to generate several domain-dependent heuristic functions in the form of Python code, evaluate them on a set of training tasks within a greedy best-first search, and choose the strongest one. The resulting LLM-generated heuristics solve many more unseen test tasks than state-of-the-art domain-independent heuristics for classical planning. They are even competitive with the strongest learning algorithm for domain-dependent planning. These findings are especially remarkable given that our proof-of-concept implementation is based on an unoptimized Python planner and the baselines all build upon highly optimized C++ code. In some domains, the LLM-generated heuristics expand fewer states than the baselines, revealing that they are not only efficiently computable, but sometimes even more informative than the state-of-the-art heuristics. Overall, our results show that sampling a set of planning heuristic function programs can significantly improve the planning capabilities of LLMs.

Planification Classique avec Heuristiques Générées par LLM : Défier l'État de l'Art avec du Code Python

Classical Planning with LLM-Generated Heuristics: Challenging the State of the Art with Python Code

papers.abstract

Support