ChatPaper.aiChatPaper

Generación de Modelos del Mundo Simbólicos mediante la Escalabilidad en Tiempo de Prueba de Modelos de Lenguaje Grandes.

Generating Symbolic World Models via Test-time Scaling of Large Language Models

February 7, 2025
Autores: Zhouliang Yu, Yuhuan Yuan, Tim Z. Xiao, Fuxiang Frank Xia, Jie Fu, Ge Zhang, Ge Lin, Weiyang Liu
cs.AI

Resumen

Resolver problemas de planificación complejos requiere que los Modelos de Lenguaje Grande (LLMs, por sus siglas en inglés) modelen explícitamente la transición de estados para evitar violaciones de reglas, cumplir con restricciones y garantizar la optimalidad, una tarea obstaculizada por la ambigüedad inherente del lenguaje natural. Para superar dicha ambigüedad, se aprovecha el Lenguaje de Definición de Dominio de Planificación (PDDL, por sus siglas en inglés) como una abstracción de planificación que permite descripciones de estados precisas y formales. Con PDDL, podemos generar un modelo simbólico del mundo donde se pueden aplicar de manera fluida algoritmos clásicos de búsqueda, como A*, para encontrar planes óptimos. Sin embargo, la generación directa de dominios PDDL con los LLMs actuales sigue siendo un desafío abierto debido a la falta de datos de entrenamiento de PDDL. Para abordar este desafío, proponemos aumentar la computación en tiempo de prueba de los LLMs para mejorar sus capacidades de razonamiento en PDDL, lo que permite la generación de dominios PDDL de alta calidad. Específicamente, presentamos un algoritmo simple pero efectivo, que primero emplea un enfoque de muestreo de Mejor-de-N para mejorar la calidad de la solución inicial y luego perfecciona la solución de manera detallada con aprendizaje automático verbalizado. Nuestro método supera ampliamente a o1-mini en la generación de dominios PDDL, logrando más del 50% de éxito en dos tareas (es decir, generar dominios PDDL a partir de descripciones en lenguaje natural o problemas PDDL). Esto se logra sin necesidad de entrenamiento adicional. Aprovechando PDDL como abstracción de estado, nuestro método es capaz de superar a los métodos actuales de vanguardia en casi todas las tareas de planificación a nivel de competencia.
English
Solving complex planning problems requires Large Language Models (LLMs) to explicitly model the state transition to avoid rule violations, comply with constraints, and ensure optimality-a task hindered by the inherent ambiguity of natural language. To overcome such ambiguity, Planning Domain Definition Language (PDDL) is leveraged as a planning abstraction that enables precise and formal state descriptions. With PDDL, we can generate a symbolic world model where classic searching algorithms, such as A*, can be seamlessly applied to find optimal plans. However, directly generating PDDL domains with current LLMs remains an open challenge due to the lack of PDDL training data. To address this challenge, we propose to scale up the test-time computation of LLMs to enhance their PDDL reasoning capabilities, thereby enabling the generation of high-quality PDDL domains. Specifically, we introduce a simple yet effective algorithm, which first employs a Best-of-N sampling approach to improve the quality of the initial solution and then refines the solution in a fine-grained manner with verbalized machine learning. Our method outperforms o1-mini by a considerable margin in the generation of PDDL domain, achieving over 50% success rate on two tasks (i.e., generating PDDL domains from natural language description or PDDL problems). This is done without requiring additional training. By taking advantage of PDDL as state abstraction, our method is able to outperform current state-of-the-art methods on almost all competition-level planning tasks.

Summary

AI-Generated Summary

PDF192February 10, 2025