Génération de modèles symboliques du monde via la mise à l'échelle au moment du test de grands modèles de langage.
Generating Symbolic World Models via Test-time Scaling of Large Language Models
February 7, 2025
Auteurs: Zhouliang Yu, Yuhuan Yuan, Tim Z. Xiao, Fuxiang Frank Xia, Jie Fu, Ge Zhang, Ge Lin, Weiyang Liu
cs.AI
Résumé
Résoudre des problèmes de planification complexes nécessite que les Grands Modèles de Langage (GML) modélisent explicitement la transition d'état pour éviter les violations de règles, respecter les contraintes et garantir l'optimalité - une tâche entravée par l'ambiguïté inhérente du langage naturel. Pour surmonter une telle ambiguïté, le Langage de Définition de Domaine de Planification (PDDL) est utilisé comme une abstraction de planification qui permet des descriptions d'état précises et formelles. Avec le PDDL, nous pouvons générer un modèle de monde symbolique où des algorithmes de recherche classiques, tels que A*, peuvent être appliqués de manière transparente pour trouver des plans optimaux. Cependant, la génération directe de domaines PDDL avec les GML actuels reste un défi ouvert en raison du manque de données d'entraînement PDDL. Pour relever ce défi, nous proposons d'augmenter le calcul des GML au moment du test pour améliorer leurs capacités de raisonnement PDDL, permettant ainsi la génération de domaines PDDL de haute qualité. Plus précisément, nous introduisons un algorithme simple mais efficace, qui utilise d'abord une approche de Meilleur-de-N échantillonnage pour améliorer la qualité de la solution initiale, puis affine la solution de manière fine avec un apprentissage automatique verbalisé. Notre méthode surpasse largement o1-mini dans la génération de domaines PDDL, atteignant un taux de réussite de plus de 50% sur deux tâches (c'est-à-dire la génération de domaines PDDL à partir d'une description en langage naturel ou de problèmes PDDL). Cela est réalisé sans nécessiter de formation supplémentaire. En exploitant le PDDL comme abstraction d'état, notre méthode est capable de surpasser les méthodes actuelles de pointe sur presque toutes les tâches de planification de niveau de compétition.
English
Solving complex planning problems requires Large Language Models (LLMs) to
explicitly model the state transition to avoid rule violations, comply with
constraints, and ensure optimality-a task hindered by the inherent ambiguity of
natural language. To overcome such ambiguity, Planning Domain Definition
Language (PDDL) is leveraged as a planning abstraction that enables precise and
formal state descriptions. With PDDL, we can generate a symbolic world model
where classic searching algorithms, such as A*, can be seamlessly applied to
find optimal plans. However, directly generating PDDL domains with current LLMs
remains an open challenge due to the lack of PDDL training data. To address
this challenge, we propose to scale up the test-time computation of LLMs to
enhance their PDDL reasoning capabilities, thereby enabling the generation of
high-quality PDDL domains. Specifically, we introduce a simple yet effective
algorithm, which first employs a Best-of-N sampling approach to improve the
quality of the initial solution and then refines the solution in a fine-grained
manner with verbalized machine learning. Our method outperforms o1-mini by a
considerable margin in the generation of PDDL domain, achieving over 50%
success rate on two tasks (i.e., generating PDDL domains from natural language
description or PDDL problems). This is done without requiring additional
training. By taking advantage of PDDL as state abstraction, our method is able
to outperform current state-of-the-art methods on almost all competition-level
planning tasks.Summary
AI-Generated Summary