ChatPaper.aiChatPaper

Genereren van Symbolische Wereldmodellen door Testtijd Schalen van Grote Taalmodellen

Generating Symbolic World Models via Test-time Scaling of Large Language Models

February 7, 2025
Auteurs: Zhouliang Yu, Yuhuan Yuan, Tim Z. Xiao, Fuxiang Frank Xia, Jie Fu, Ge Zhang, Ge Lin, Weiyang Liu
cs.AI

Samenvatting

Het oplossen van complexe planningsproblemen vereist dat Grote Taalmodellen (LLMs) de staatsovergang expliciet modelleren om regelovertredingen te vermijden, te voldoen aan beperkingen en optimaliteit te waarborgen - een taak die wordt bemoeilijkt door de inherente ambiguïteit van natuurlijke taal. Om dergelijke ambiguïteit te overwinnen, wordt Planning Domein Definitie Taal (PDDL) ingezet als een planningsabstractie die nauwkeurige en formele staatbeschrijvingen mogelijk maakt. Met PDDL kunnen we een symbolisch wereldmodel genereren waar klassieke zoekalgoritmen, zoals A*, naadloos kunnen worden toegepast om optimale plannen te vinden. Echter, het direct genereren van PDDL-domeinen met huidige LLMs blijft een open uitdaging vanwege het gebrek aan PDDL-trainingsgegevens. Om deze uitdaging aan te pakken, stellen we voor om de testtijd berekening van LLMs te vergroten om hun PDDL redeneervermogen te verbeteren, waardoor de generatie van hoogwaardige PDDL-domeinen mogelijk wordt. Specifiek introduceren we een eenvoudig maar effectief algoritme, dat eerst een Best-of-N bemonsteringsbenadering gebruikt om de kwaliteit van de initiële oplossing te verbeteren en vervolgens de oplossing verfijnt op een fijnmazige manier met verbaal gemaakt machinaal leren. Onze methode presteert aanzienlijk beter dan o1-mini bij de generatie van PDDL-domeinen, met een succespercentage van meer dan 50% bij twee taken (d.w.z. het genereren van PDDL-domeinen uit natuurlijke taalbeschrijving of PDDL-problemen). Dit wordt gedaan zonder extra training te vereisen. Door gebruik te maken van PDDL als staatabstractie, is onze methode in staat om bijna alle planningsopdrachten op competitieniveau te overtreffen met de huidige state-of-the-art methoden.
English
Solving complex planning problems requires Large Language Models (LLMs) to explicitly model the state transition to avoid rule violations, comply with constraints, and ensure optimality-a task hindered by the inherent ambiguity of natural language. To overcome such ambiguity, Planning Domain Definition Language (PDDL) is leveraged as a planning abstraction that enables precise and formal state descriptions. With PDDL, we can generate a symbolic world model where classic searching algorithms, such as A*, can be seamlessly applied to find optimal plans. However, directly generating PDDL domains with current LLMs remains an open challenge due to the lack of PDDL training data. To address this challenge, we propose to scale up the test-time computation of LLMs to enhance their PDDL reasoning capabilities, thereby enabling the generation of high-quality PDDL domains. Specifically, we introduce a simple yet effective algorithm, which first employs a Best-of-N sampling approach to improve the quality of the initial solution and then refines the solution in a fine-grained manner with verbalized machine learning. Our method outperforms o1-mini by a considerable margin in the generation of PDDL domain, achieving over 50% success rate on two tasks (i.e., generating PDDL domains from natural language description or PDDL problems). This is done without requiring additional training. By taking advantage of PDDL as state abstraction, our method is able to outperform current state-of-the-art methods on almost all competition-level planning tasks.

Summary

AI-Generated Summary

PDF192February 10, 2025