Text2World: Benchmarking van Grote Taalmodellen voor de Generatie van Symbolische Wereldmodellen
Text2World: Benchmarking Large Language Models for Symbolic World Model Generation
February 18, 2025
Auteurs: Mengkang Hu, Tianxing Chen, Yude Zou, Yuheng Lei, Qiguang Chen, Ming Li, Hongyuan Zhang, Wenqi Shao, Ping Luo
cs.AI
Samenvatting
Recentelijk is er een groeiende interesse ontstaan in het gebruik van grote taalmmodellen (LLMs) om symbolische wereldmodellen te genereren op basis van tekstuele beschrijvingen. Hoewel LLMs uitgebreid zijn onderzocht in de context van wereldmodellering, stuiten eerdere studies op verschillende uitdagingen, waaronder evaluatietoevalligheid, afhankelijkheid van indirecte metrieken en een beperkt domeinbereik. Om deze beperkingen aan te pakken, introduceren we een nieuwe benchmark, Text2World, gebaseerd op de planning domain definition language (PDDL), met honderden diverse domeinen en het gebruik van multi-criteria, uitvoeringsgebaseerde metrieken voor een robuustere evaluatie. We benchmarken huidige LLMs met Text2World en ontdekken dat redeneermodellen die getraind zijn met grootschalige reinforcement learning anderen overtreffen. Echter, zelfs het best presterende model toont nog steeds beperkte mogelijkheden in wereldmodellering. Gebaseerd op deze inzichten onderzoeken we verschillende veelbelovende strategieën om de wereldmodelleringscapaciteiten van LLMs te verbeteren, waaronder test-time scaling, agenttraining en meer. We hopen dat Text2World kan dienen als een cruciale bron, die de basis legt voor toekomstig onderzoek naar het gebruik van LLMs als wereldmodellen. De projectpagina is beschikbaar op https://text-to-world.github.io/.
English
Recently, there has been growing interest in leveraging large language models
(LLMs) to generate symbolic world models from textual descriptions. Although
LLMs have been extensively explored in the context of world modeling, prior
studies encountered several challenges, including evaluation randomness,
dependence on indirect metrics, and a limited domain scope. To address these
limitations, we introduce a novel benchmark, Text2World, based on planning
domain definition language (PDDL), featuring hundreds of diverse domains and
employing multi-criteria, execution-based metrics for a more robust evaluation.
We benchmark current LLMs using Text2World and find that reasoning models
trained with large-scale reinforcement learning outperform others. However,
even the best-performing model still demonstrates limited capabilities in world
modeling. Building on these insights, we examine several promising strategies
to enhance the world modeling capabilities of LLMs, including test-time
scaling, agent training, and more. We hope that Text2World can serve as a
crucial resource, laying the groundwork for future research in leveraging LLMs
as world models. The project page is available at
https://text-to-world.github.io/.Summary
AI-Generated Summary