Text2World : Évaluation des modèles de langage de grande taille pour la génération de modèles du monde symbolique
Text2World: Benchmarking Large Language Models for Symbolic World Model Generation
February 18, 2025
Auteurs: Mengkang Hu, Tianxing Chen, Yude Zou, Yuheng Lei, Qiguang Chen, Ming Li, Hongyuan Zhang, Wenqi Shao, Ping Luo
cs.AI
Résumé
Récemment, un intérêt croissant s'est porté sur l'utilisation des grands modèles de langage (LLMs) pour générer des modèles symboliques du monde à partir de descriptions textuelles. Bien que les LLMs aient été largement explorés dans le contexte de la modélisation du monde, les études précédentes ont rencontré plusieurs défis, notamment l'aléa dans l'évaluation, la dépendance à des métriques indirectes et une portée limitée des domaines. Pour pallier ces limitations, nous introduisons un nouveau benchmark, Text2World, basé sur le langage de définition de domaines de planification (PDDL), comprenant des centaines de domaines variés et utilisant des métriques d'évaluation multicritères basées sur l'exécution pour une évaluation plus robuste. Nous évaluons les LLMs actuels avec Text2World et constatons que les modèles de raisonnement entraînés avec un apprentissage par renforcement à grande échelle surpassent les autres. Cependant, même le modèle le plus performant montre des capacités limitées en modélisation du monde. Sur la base de ces observations, nous examinons plusieurs stratégies prometteuses pour améliorer les capacités de modélisation du monde des LLMs, notamment la mise à l'échelle au moment du test, l'entraînement d'agents, et plus encore. Nous espérons que Text2World pourra servir de ressource cruciale, jetant les bases pour des recherches futures sur l'utilisation des LLMs comme modèles du monde. La page du projet est disponible à l'adresse https://text-to-world.github.io/.
English
Recently, there has been growing interest in leveraging large language models
(LLMs) to generate symbolic world models from textual descriptions. Although
LLMs have been extensively explored in the context of world modeling, prior
studies encountered several challenges, including evaluation randomness,
dependence on indirect metrics, and a limited domain scope. To address these
limitations, we introduce a novel benchmark, Text2World, based on planning
domain definition language (PDDL), featuring hundreds of diverse domains and
employing multi-criteria, execution-based metrics for a more robust evaluation.
We benchmark current LLMs using Text2World and find that reasoning models
trained with large-scale reinforcement learning outperform others. However,
even the best-performing model still demonstrates limited capabilities in world
modeling. Building on these insights, we examine several promising strategies
to enhance the world modeling capabilities of LLMs, including test-time
scaling, agent training, and more. We hope that Text2World can serve as a
crucial resource, laying the groundwork for future research in leveraging LLMs
as world models. The project page is available at
https://text-to-world.github.io/.Summary
AI-Generated Summary