Text2World: Оценка крупных языковых моделей для генерации символических моделей мира
Text2World: Benchmarking Large Language Models for Symbolic World Model Generation
February 18, 2025
Авторы: Mengkang Hu, Tianxing Chen, Yude Zou, Yuheng Lei, Qiguang Chen, Ming Li, Hongyuan Zhang, Wenqi Shao, Ping Luo
cs.AI
Аннотация
В последнее время наблюдается растущий интерес к использованию крупных языковых моделей (LLM) для генерации символических моделей мира на основе текстовых описаний. Хотя LLM активно исследовались в контексте моделирования мира, предыдущие исследования столкнулись с рядом проблем, включая случайность оценки, зависимость от косвенных метрик и ограниченную область применения. Чтобы устранить эти ограничения, мы представляем новый бенчмарк Text2World, основанный на языке определения планировочных доменов (PDDL), который включает сотни разнообразных доменов и использует многокритериальные, основанные на исполнении метрики для более надежной оценки. Мы тестируем современные LLM с помощью Text2World и обнаруживаем, что модели рассуждений, обученные с использованием масштабного обучения с подкреплением, превосходят другие. Однако даже лучшая модель демонстрирует ограниченные возможности в моделировании мира. На основе этих наблюдений мы исследуем несколько перспективных стратегий для улучшения способностей LLM в моделировании мира, включая масштабирование на этапе тестирования, обучение агентов и другие. Мы надеемся, что Text2World станет важным ресурсом, закладывающим основу для будущих исследований в области использования LLM в качестве моделей мира. Страница проекта доступна по адресу https://text-to-world.github.io/.
English
Recently, there has been growing interest in leveraging large language models
(LLMs) to generate symbolic world models from textual descriptions. Although
LLMs have been extensively explored in the context of world modeling, prior
studies encountered several challenges, including evaluation randomness,
dependence on indirect metrics, and a limited domain scope. To address these
limitations, we introduce a novel benchmark, Text2World, based on planning
domain definition language (PDDL), featuring hundreds of diverse domains and
employing multi-criteria, execution-based metrics for a more robust evaluation.
We benchmark current LLMs using Text2World and find that reasoning models
trained with large-scale reinforcement learning outperform others. However,
even the best-performing model still demonstrates limited capabilities in world
modeling. Building on these insights, we examine several promising strategies
to enhance the world modeling capabilities of LLMs, including test-time
scaling, agent training, and more. We hope that Text2World can serve as a
crucial resource, laying the groundwork for future research in leveraging LLMs
as world models. The project page is available at
https://text-to-world.github.io/.Summary
AI-Generated Summary