Text2World: Benchmarking von Large Language Models zur Generierung symbolischer Weltmodelle
Text2World: Benchmarking Large Language Models for Symbolic World Model Generation
February 18, 2025
Autoren: Mengkang Hu, Tianxing Chen, Yude Zou, Yuheng Lei, Qiguang Chen, Ming Li, Hongyuan Zhang, Wenqi Shao, Ping Luo
cs.AI
Zusammenfassung
In letzter Zeit hat das Interesse zugenommen, große Sprachmodelle (LLMs) zu nutzen, um symbolische Weltmodelle aus textuellen Beschreibungen zu generieren. Obwohl LLMs im Kontext der Weltmodellierung bereits umfassend untersucht wurden, stießen frühere Studien auf mehrere Herausforderungen, darunter Zufälligkeit bei der Evaluation, Abhängigkeit von indirekten Metriken und einen begrenzten Domänenbereich. Um diese Einschränkungen zu überwinden, stellen wir einen neuartigen Benchmark vor, Text2World, der auf der Planungsdomänendefinitionssprache (PDDL) basiert und Hunderte von diversen Domänen sowie mehrkriterielle, ausführungsbasierte Metriken für eine robustere Evaluation umfasst. Wir evaluieren aktuelle LLMs mit Text2World und stellen fest, dass Reasoning-Modelle, die mit groß angelegtem Reinforcement Learning trainiert wurden, andere Modelle übertreffen. Dennoch zeigt selbst das leistungsstärkste Modell begrenzte Fähigkeiten in der Weltmodellierung. Aufbauend auf diesen Erkenntnissen untersuchen wir mehrere vielversprechende Strategien, um die Weltmodellierungsfähigkeiten von LLMs zu verbessern, darunter Test-Time-Scaling, Agententraining und mehr. Wir hoffen, dass Text2World als eine entscheidende Ressource dienen kann, die die Grundlage für zukünftige Forschungen zur Nutzung von LLMs als Weltmodelle legt. Die Projektseite ist unter https://text-to-world.github.io/ verfügbar.
English
Recently, there has been growing interest in leveraging large language models
(LLMs) to generate symbolic world models from textual descriptions. Although
LLMs have been extensively explored in the context of world modeling, prior
studies encountered several challenges, including evaluation randomness,
dependence on indirect metrics, and a limited domain scope. To address these
limitations, we introduce a novel benchmark, Text2World, based on planning
domain definition language (PDDL), featuring hundreds of diverse domains and
employing multi-criteria, execution-based metrics for a more robust evaluation.
We benchmark current LLMs using Text2World and find that reasoning models
trained with large-scale reinforcement learning outperform others. However,
even the best-performing model still demonstrates limited capabilities in world
modeling. Building on these insights, we examine several promising strategies
to enhance the world modeling capabilities of LLMs, including test-time
scaling, agent training, and more. We hope that Text2World can serve as a
crucial resource, laying the groundwork for future research in leveraging LLMs
as world models. The project page is available at
https://text-to-world.github.io/.Summary
AI-Generated Summary