Text2World: Valutazione dei Modelli Linguistici di Grande Scala per la Generazione di Modelli Simbolici del Mondo
Text2World: Benchmarking Large Language Models for Symbolic World Model Generation
February 18, 2025
Autori: Mengkang Hu, Tianxing Chen, Yude Zou, Yuheng Lei, Qiguang Chen, Ming Li, Hongyuan Zhang, Wenqi Shao, Ping Luo
cs.AI
Abstract
Recentemente, c'è stato un crescente interesse nell'utilizzo di modelli linguistici di grandi dimensioni (LLM) per generare modelli simbolici del mondo a partire da descrizioni testuali. Sebbene gli LLM siano stati ampiamente esplorati nel contesto della modellazione del mondo, studi precedenti hanno incontrato diverse sfide, tra cui la casualità nella valutazione, la dipendenza da metriche indirette e un ambito di dominio limitato. Per affrontare queste limitazioni, introduciamo un nuovo benchmark, Text2World, basato sul linguaggio di definizione del dominio di pianificazione (PDDL), che presenta centinaia di domini diversi e utilizza metriche esecutive multicriterio per una valutazione più robusta. Abbiamo valutato gli attuali LLM utilizzando Text2World e abbiamo riscontrato che i modelli di ragionamento addestrati con l'apprendimento per rinforzo su larga scala superano gli altri. Tuttavia, anche il modello con le migliori prestazioni mostra ancora capacità limitate nella modellazione del mondo. Sulla base di queste osservazioni, esaminiamo diverse strategie promettenti per migliorare le capacità di modellazione del mondo degli LLM, tra cui il ridimensionamento al momento del test, l'addestramento di agenti e altro ancora. Speriamo che Text2World possa rappresentare una risorsa cruciale, gettando le basi per future ricerche sull'utilizzo degli LLM come modelli del mondo. La pagina del progetto è disponibile all'indirizzo https://text-to-world.github.io/.
English
Recently, there has been growing interest in leveraging large language models
(LLMs) to generate symbolic world models from textual descriptions. Although
LLMs have been extensively explored in the context of world modeling, prior
studies encountered several challenges, including evaluation randomness,
dependence on indirect metrics, and a limited domain scope. To address these
limitations, we introduce a novel benchmark, Text2World, based on planning
domain definition language (PDDL), featuring hundreds of diverse domains and
employing multi-criteria, execution-based metrics for a more robust evaluation.
We benchmark current LLMs using Text2World and find that reasoning models
trained with large-scale reinforcement learning outperform others. However,
even the best-performing model still demonstrates limited capabilities in world
modeling. Building on these insights, we examine several promising strategies
to enhance the world modeling capabilities of LLMs, including test-time
scaling, agent training, and more. We hope that Text2World can serve as a
crucial resource, laying the groundwork for future research in leveraging LLMs
as world models. The project page is available at
https://text-to-world.github.io/.Summary
AI-Generated Summary