Text2World: Avaliação de Modelos de Linguagem de Grande Escala para Geração de Modelos de Mundo Simbólico
Text2World: Benchmarking Large Language Models for Symbolic World Model Generation
February 18, 2025
Autores: Mengkang Hu, Tianxing Chen, Yude Zou, Yuheng Lei, Qiguang Chen, Ming Li, Hongyuan Zhang, Wenqi Shao, Ping Luo
cs.AI
Resumo
Recentemente, tem crescido o interesse em aproveitar modelos de linguagem de grande escala (LLMs) para gerar modelos de mundo simbólicos a partir de descrições textuais. Embora os LLMs tenham sido amplamente explorados no contexto de modelagem de mundo, estudos anteriores enfrentaram diversos desafios, incluindo aleatoriedade na avaliação, dependência de métricas indiretas e um escopo de domínio limitado. Para abordar essas limitações, introduzimos um novo benchmark, o Text2World, baseado na linguagem de definição de domínio de planejamento (PDDL), que apresenta centenas de domínios diversos e emprega métricas de execução multicritério para uma avaliação mais robusta. Avaliamos os LLMs atuais usando o Text2World e descobrimos que modelos de raciocínio treinados com aprendizado por reforço em larga escala superam os demais. No entanto, mesmo o modelo de melhor desempenho ainda demonstra capacidades limitadas na modelagem de mundo. Com base nessas descobertas, examinamos várias estratégias promissoras para aprimorar as capacidades de modelagem de mundo dos LLMs, incluindo escalonamento em tempo de teste, treinamento de agentes e mais. Esperamos que o Text2World possa servir como um recurso crucial, estabelecendo as bases para pesquisas futuras sobre o uso de LLMs como modelos de mundo. A página do projeto está disponível em https://text-to-world.github.io/.
English
Recently, there has been growing interest in leveraging large language models
(LLMs) to generate symbolic world models from textual descriptions. Although
LLMs have been extensively explored in the context of world modeling, prior
studies encountered several challenges, including evaluation randomness,
dependence on indirect metrics, and a limited domain scope. To address these
limitations, we introduce a novel benchmark, Text2World, based on planning
domain definition language (PDDL), featuring hundreds of diverse domains and
employing multi-criteria, execution-based metrics for a more robust evaluation.
We benchmark current LLMs using Text2World and find that reasoning models
trained with large-scale reinforcement learning outperform others. However,
even the best-performing model still demonstrates limited capabilities in world
modeling. Building on these insights, we examine several promising strategies
to enhance the world modeling capabilities of LLMs, including test-time
scaling, agent training, and more. We hope that Text2World can serve as a
crucial resource, laying the groundwork for future research in leveraging LLMs
as world models. The project page is available at
https://text-to-world.github.io/.