Generazione di Modelli del Mondo Simbolici tramite Ridimensionamento dei Modelli Linguistici di Grandi Dimensioni al Momento del Test.
Generating Symbolic World Models via Test-time Scaling of Large Language Models
February 7, 2025
Autori: Zhouliang Yu, Yuhuan Yuan, Tim Z. Xiao, Fuxiang Frank Xia, Jie Fu, Ge Zhang, Ge Lin, Weiyang Liu
cs.AI
Abstract
Risolvere problemi di pianificazione complessi richiede che i Grandi Modelli Linguistici (LLM) modellino esplicitamente la transizione di stato per evitare violazioni di regole, rispettare vincoli e garantire l'ottimalità, un compito ostacolato dall'ambiguità intrinseca del linguaggio naturale. Per superare tale ambiguità, viene sfruttato il Linguaggio di Definizione del Dominio di Pianificazione (PDDL) come astrazione di pianificazione che consente descrizioni di stato precise e formali. Con PDDL, possiamo generare un modello di mondo simbolico in cui algoritmi di ricerca classici, come A*, possono essere applicati in modo fluido per trovare piani ottimali. Tuttavia, la generazione diretta di domini PDDL con attuali LLM rimane una sfida aperta a causa della mancanza di dati di addestramento PDDL. Per affrontare questa sfida, proponiamo di aumentare il calcolo a tempo di test dei LLM per potenziare le loro capacità di ragionamento PDDL, consentendo così la generazione di domini PDDL di alta qualità. In particolare, introduciamo un algoritmo semplice ma efficace, che utilizza inizialmente un approccio di campionamento Best-of-N per migliorare la qualità della soluzione iniziale e successivamente raffina la soluzione in modo dettagliato con apprendimento automatico verbalizzato. Il nostro metodo supera o1-mini di gran lunga nella generazione di domini PDDL, raggiungendo oltre il 50% di successo su due compiti (cioè, generando domini PDDL da descrizioni in linguaggio naturale o problemi PDDL). Ciò è realizzato senza richiedere ulteriore addestramento. Sfruttando PDDL come astrazione di stato, il nostro metodo è in grado di superare i metodi attuali all'avanguardia su quasi tutti i compiti di pianificazione di livello competitivo.
English
Solving complex planning problems requires Large Language Models (LLMs) to
explicitly model the state transition to avoid rule violations, comply with
constraints, and ensure optimality-a task hindered by the inherent ambiguity of
natural language. To overcome such ambiguity, Planning Domain Definition
Language (PDDL) is leveraged as a planning abstraction that enables precise and
formal state descriptions. With PDDL, we can generate a symbolic world model
where classic searching algorithms, such as A*, can be seamlessly applied to
find optimal plans. However, directly generating PDDL domains with current LLMs
remains an open challenge due to the lack of PDDL training data. To address
this challenge, we propose to scale up the test-time computation of LLMs to
enhance their PDDL reasoning capabilities, thereby enabling the generation of
high-quality PDDL domains. Specifically, we introduce a simple yet effective
algorithm, which first employs a Best-of-N sampling approach to improve the
quality of the initial solution and then refines the solution in a fine-grained
manner with verbalized machine learning. Our method outperforms o1-mini by a
considerable margin in the generation of PDDL domain, achieving over 50%
success rate on two tasks (i.e., generating PDDL domains from natural language
description or PDDL problems). This is done without requiring additional
training. By taking advantage of PDDL as state abstraction, our method is able
to outperform current state-of-the-art methods on almost all competition-level
planning tasks.Summary
AI-Generated Summary