Gerando Modelos de Mundo Simbólicos através da Escala de Tempo de Teste de Grandes Modelos de Linguagem.
Generating Symbolic World Models via Test-time Scaling of Large Language Models
February 7, 2025
Autores: Zhouliang Yu, Yuhuan Yuan, Tim Z. Xiao, Fuxiang Frank Xia, Jie Fu, Ge Zhang, Ge Lin, Weiyang Liu
cs.AI
Resumo
Resolver problemas complexos de planeamento requer que Grandes Modelos de Linguagem (GMLs) modelem explicitamente a transição de estado para evitar violações de regras, cumprir restrições e garantir a optimalidade - uma tarefa dificultada pela ambiguidade inerente da linguagem natural. Para superar essa ambiguidade, a Linguagem de Definição de Domínio de Planeamento (PDDL) é aproveitada como uma abstração de planeamento que permite descrições de estado precisas e formais. Com PDDL, podemos gerar um modelo de mundo simbólico onde algoritmos de busca clássicos, como A*, podem ser aplicados de forma transparente para encontrar planos ótimos. No entanto, a geração direta de domínios PDDL com os atuais GMLs continua a ser um desafio em aberto devido à falta de dados de treinamento PDDL. Para enfrentar esse desafio, propomos aumentar a computação em tempo de teste dos GMLs para aprimorar suas capacidades de raciocínio PDDL, permitindo assim a geração de domínios PDDL de alta qualidade. Especificamente, introduzimos um algoritmo simples, porém eficaz, que primeiro emprega uma abordagem de Melhor-de-N amostragem para melhorar a qualidade da solução inicial e depois refina a solução de forma detalhada com aprendizado de máquina verbalizado. Nosso método supera o o1-mini por uma margem considerável na geração de domínio PDDL, alcançando mais de 50% de taxa de sucesso em duas tarefas (ou seja, gerar domínios PDDL a partir de descrições em linguagem natural ou problemas PDDL). Isso é feito sem a necessidade de treinamento adicional. Ao aproveitar o PDDL como abstração de estado, nosso método é capaz de superar os métodos atuais de ponta em quase todas as tarefas de planeamento de nível de competição.
English
Solving complex planning problems requires Large Language Models (LLMs) to
explicitly model the state transition to avoid rule violations, comply with
constraints, and ensure optimality-a task hindered by the inherent ambiguity of
natural language. To overcome such ambiguity, Planning Domain Definition
Language (PDDL) is leveraged as a planning abstraction that enables precise and
formal state descriptions. With PDDL, we can generate a symbolic world model
where classic searching algorithms, such as A*, can be seamlessly applied to
find optimal plans. However, directly generating PDDL domains with current LLMs
remains an open challenge due to the lack of PDDL training data. To address
this challenge, we propose to scale up the test-time computation of LLMs to
enhance their PDDL reasoning capabilities, thereby enabling the generation of
high-quality PDDL domains. Specifically, we introduce a simple yet effective
algorithm, which first employs a Best-of-N sampling approach to improve the
quality of the initial solution and then refines the solution in a fine-grained
manner with verbalized machine learning. Our method outperforms o1-mini by a
considerable margin in the generation of PDDL domain, achieving over 50%
success rate on two tasks (i.e., generating PDDL domains from natural language
description or PDDL problems). This is done without requiring additional
training. By taking advantage of PDDL as state abstraction, our method is able
to outperform current state-of-the-art methods on almost all competition-level
planning tasks.Summary
AI-Generated Summary