ChatPaper.aiChatPaper

Gerando Modelos de Mundo Simbólicos através da Escala de Tempo de Teste de Grandes Modelos de Linguagem.

Generating Symbolic World Models via Test-time Scaling of Large Language Models

February 7, 2025
Autores: Zhouliang Yu, Yuhuan Yuan, Tim Z. Xiao, Fuxiang Frank Xia, Jie Fu, Ge Zhang, Ge Lin, Weiyang Liu
cs.AI

Resumo

Resolver problemas complexos de planeamento requer que Grandes Modelos de Linguagem (GMLs) modelem explicitamente a transição de estado para evitar violações de regras, cumprir restrições e garantir a optimalidade - uma tarefa dificultada pela ambiguidade inerente da linguagem natural. Para superar essa ambiguidade, a Linguagem de Definição de Domínio de Planeamento (PDDL) é aproveitada como uma abstração de planeamento que permite descrições de estado precisas e formais. Com PDDL, podemos gerar um modelo de mundo simbólico onde algoritmos de busca clássicos, como A*, podem ser aplicados de forma transparente para encontrar planos ótimos. No entanto, a geração direta de domínios PDDL com os atuais GMLs continua a ser um desafio em aberto devido à falta de dados de treinamento PDDL. Para enfrentar esse desafio, propomos aumentar a computação em tempo de teste dos GMLs para aprimorar suas capacidades de raciocínio PDDL, permitindo assim a geração de domínios PDDL de alta qualidade. Especificamente, introduzimos um algoritmo simples, porém eficaz, que primeiro emprega uma abordagem de Melhor-de-N amostragem para melhorar a qualidade da solução inicial e depois refina a solução de forma detalhada com aprendizado de máquina verbalizado. Nosso método supera o o1-mini por uma margem considerável na geração de domínio PDDL, alcançando mais de 50% de taxa de sucesso em duas tarefas (ou seja, gerar domínios PDDL a partir de descrições em linguagem natural ou problemas PDDL). Isso é feito sem a necessidade de treinamento adicional. Ao aproveitar o PDDL como abstração de estado, nosso método é capaz de superar os métodos atuais de ponta em quase todas as tarefas de planeamento de nível de competição.
English
Solving complex planning problems requires Large Language Models (LLMs) to explicitly model the state transition to avoid rule violations, comply with constraints, and ensure optimality-a task hindered by the inherent ambiguity of natural language. To overcome such ambiguity, Planning Domain Definition Language (PDDL) is leveraged as a planning abstraction that enables precise and formal state descriptions. With PDDL, we can generate a symbolic world model where classic searching algorithms, such as A*, can be seamlessly applied to find optimal plans. However, directly generating PDDL domains with current LLMs remains an open challenge due to the lack of PDDL training data. To address this challenge, we propose to scale up the test-time computation of LLMs to enhance their PDDL reasoning capabilities, thereby enabling the generation of high-quality PDDL domains. Specifically, we introduce a simple yet effective algorithm, which first employs a Best-of-N sampling approach to improve the quality of the initial solution and then refines the solution in a fine-grained manner with verbalized machine learning. Our method outperforms o1-mini by a considerable margin in the generation of PDDL domain, achieving over 50% success rate on two tasks (i.e., generating PDDL domains from natural language description or PDDL problems). This is done without requiring additional training. By taking advantage of PDDL as state abstraction, our method is able to outperform current state-of-the-art methods on almost all competition-level planning tasks.

Summary

AI-Generated Summary

PDF192February 10, 2025