Generierung symbolischer Weltmodelle durch Skalierung von großen Sprachmodellen zur Testzeit
Generating Symbolic World Models via Test-time Scaling of Large Language Models
February 7, 2025
Autoren: Zhouliang Yu, Yuhuan Yuan, Tim Z. Xiao, Fuxiang Frank Xia, Jie Fu, Ge Zhang, Ge Lin, Weiyang Liu
cs.AI
Zusammenfassung
Die Lösung komplexer Planungsprobleme erfordert, dass Large Language Models (LLMs) den Zustandsübergang explizit modellieren, um Regelverstöße zu vermeiden, Einschränkungen einzuhalten und die Optimalität sicherzustellen - eine Aufgabe, die durch die inhärente Mehrdeutigkeit natürlicher Sprache behindert wird. Um diese Mehrdeutigkeit zu überwinden, wird die Planning Domain Definition Language (PDDL) als Planungsabstraktion genutzt, die präzise und formale Zustandsbeschreibungen ermöglicht. Mit PDDL können wir ein symbolisches Weltmodell generieren, auf das klassische Suchalgorithmen wie A* nahtlos angewendet werden können, um optimale Pläne zu finden. Allerdings bleibt die direkte Generierung von PDDL-Domänen mit aktuellen LLMs aufgrund des Mangels an PDDL-Trainingsdaten eine offene Herausforderung. Um dieser Herausforderung zu begegnen, schlagen wir vor, die Testzeitberechnung von LLMs zu erhöhen, um ihre PDDL-Argumentationsfähigkeiten zu verbessern und somit die Erzeugung hochwertiger PDDL-Domänen zu ermöglichen. Konkret führen wir einen einfachen, aber effektiven Algorithmus ein, der zunächst einen Best-of-N-Sampling-Ansatz verwendet, um die Qualität der anfänglichen Lösung zu verbessern, und dann die Lösung auf fein abgestimmte Weise mit verbalisiertem maschinellem Lernen verfeinert. Unsere Methode übertrifft o1-mini bei der Generierung von PDDL-Domänen um einen erheblichen Betrag und erreicht eine Erfolgsrate von über 50% bei zwei Aufgaben (d.h. Generierung von PDDL-Domänen aus natürlicher Sprachbeschreibung oder PDDL-Problemen). Dies erfolgt ohne zusätzliches Training. Indem wir PDDL als Zustandsabstraktion nutzen, ist unsere Methode in der Lage, fast alle Wettbewerbsplanungsaufgaben auf dem aktuellen Stand der Technik zu übertreffen.
English
Solving complex planning problems requires Large Language Models (LLMs) to
explicitly model the state transition to avoid rule violations, comply with
constraints, and ensure optimality-a task hindered by the inherent ambiguity of
natural language. To overcome such ambiguity, Planning Domain Definition
Language (PDDL) is leveraged as a planning abstraction that enables precise and
formal state descriptions. With PDDL, we can generate a symbolic world model
where classic searching algorithms, such as A*, can be seamlessly applied to
find optimal plans. However, directly generating PDDL domains with current LLMs
remains an open challenge due to the lack of PDDL training data. To address
this challenge, we propose to scale up the test-time computation of LLMs to
enhance their PDDL reasoning capabilities, thereby enabling the generation of
high-quality PDDL domains. Specifically, we introduce a simple yet effective
algorithm, which first employs a Best-of-N sampling approach to improve the
quality of the initial solution and then refines the solution in a fine-grained
manner with verbalized machine learning. Our method outperforms o1-mini by a
considerable margin in the generation of PDDL domain, achieving over 50%
success rate on two tasks (i.e., generating PDDL domains from natural language
description or PDDL problems). This is done without requiring additional
training. By taking advantage of PDDL as state abstraction, our method is able
to outperform current state-of-the-art methods on almost all competition-level
planning tasks.Summary
AI-Generated Summary