Генерация символьных моделей мира путем масштабирования крупных языковых моделей во время тестирования.
Generating Symbolic World Models via Test-time Scaling of Large Language Models
February 7, 2025
Авторы: Zhouliang Yu, Yuhuan Yuan, Tim Z. Xiao, Fuxiang Frank Xia, Jie Fu, Ge Zhang, Ge Lin, Weiyang Liu
cs.AI
Аннотация
Решение сложных задач планирования требует от крупных языковых моделей (LLM) явного моделирования перехода состояний для предотвращения нарушений правил, соблюдения ограничений и обеспечения оптимальности - задача, затрудненная встроенной неоднозначностью естественного языка. Для преодоления такой неоднозначности используется язык определения области планирования (PDDL) в качестве абстракции планирования, позволяющей точные и формальные описания состояний. С помощью PDDL мы можем создать символическую модель мира, где классические алгоритмы поиска, такие как A*, могут быть легко применены для нахождения оптимальных планов. Однако напрямую создание областей PDDL с использованием текущих LLM остается открытой проблемой из-за отсутствия обучающих данных PDDL. Для решения этой проблемы мы предлагаем увеличить вычислительные возможности LLM во время тестирования для улучшения их способностей к рассуждению в PDDL, тем самым обеспечивая создание высококачественных областей PDDL. Конкретно, мы представляем простой, но эффективный алгоритм, который сначала использует подход Best-of-N для улучшения качества начального решения, а затем уточняет решение детализированным образом с помощью вербализованного машинного обучения. Наш метод значительно превосходит o1-mini в создании области PDDL, достигая более 50% успешных результатов на двух задачах (т.е. создание областей PDDL из описания естественного языка или задач PDDL). Это достигается без дополнительного обучения. Используя PDDL в качестве абстракции состояния, наш метод способен превзойти текущие передовые методы практически на всех задачах планирования на уровне соревнований.
English
Solving complex planning problems requires Large Language Models (LLMs) to
explicitly model the state transition to avoid rule violations, comply with
constraints, and ensure optimality-a task hindered by the inherent ambiguity of
natural language. To overcome such ambiguity, Planning Domain Definition
Language (PDDL) is leveraged as a planning abstraction that enables precise and
formal state descriptions. With PDDL, we can generate a symbolic world model
where classic searching algorithms, such as A*, can be seamlessly applied to
find optimal plans. However, directly generating PDDL domains with current LLMs
remains an open challenge due to the lack of PDDL training data. To address
this challenge, we propose to scale up the test-time computation of LLMs to
enhance their PDDL reasoning capabilities, thereby enabling the generation of
high-quality PDDL domains. Specifically, we introduce a simple yet effective
algorithm, which first employs a Best-of-N sampling approach to improve the
quality of the initial solution and then refines the solution in a fine-grained
manner with verbalized machine learning. Our method outperforms o1-mini by a
considerable margin in the generation of PDDL domain, achieving over 50%
success rate on two tasks (i.e., generating PDDL domains from natural language
description or PDDL problems). This is done without requiring additional
training. By taking advantage of PDDL as state abstraction, our method is able
to outperform current state-of-the-art methods on almost all competition-level
planning tasks.Summary
AI-Generated Summary