Text2World: Evaluación de Modelos de Lenguaje de Gran Escala para la Generación de Modelos Simbólicos del Mundo
Text2World: Benchmarking Large Language Models for Symbolic World Model Generation
February 18, 2025
Autores: Mengkang Hu, Tianxing Chen, Yude Zou, Yuheng Lei, Qiguang Chen, Ming Li, Hongyuan Zhang, Wenqi Shao, Ping Luo
cs.AI
Resumen
Recientemente, ha crecido el interés en aprovechar los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) para generar modelos simbólicos del mundo a partir de descripciones textuales. Aunque los LLMs han sido ampliamente explorados en el contexto del modelado del mundo, estudios previos han enfrentado varios desafíos, como la aleatoriedad en la evaluación, la dependencia de métricas indirectas y un alcance limitado en los dominios. Para abordar estas limitaciones, presentamos un nuevo punto de referencia, Text2World, basado en el lenguaje de definición de dominios de planificación (PDDL), que incluye cientos de dominios diversos y emplea métricas de evaluación basadas en la ejecución y de múltiples criterios para una evaluación más robusta. Evaluamos los LLMs actuales utilizando Text2World y encontramos que los modelos de razonamiento entrenados con aprendizaje por refuerzo a gran escala superan a los demás. Sin embargo, incluso el modelo con mejor rendimiento muestra capacidades limitadas en el modelado del mundo. Basándonos en estas observaciones, examinamos varias estrategias prometedoras para mejorar las capacidades de modelado del mundo de los LLMs, incluyendo el escalado en tiempo de prueba, el entrenamiento de agentes y más. Esperamos que Text2World pueda servir como un recurso crucial, sentando las bases para futuras investigaciones sobre el uso de LLMs como modelos del mundo. La página del proyecto está disponible en https://text-to-world.github.io/.
English
Recently, there has been growing interest in leveraging large language models
(LLMs) to generate symbolic world models from textual descriptions. Although
LLMs have been extensively explored in the context of world modeling, prior
studies encountered several challenges, including evaluation randomness,
dependence on indirect metrics, and a limited domain scope. To address these
limitations, we introduce a novel benchmark, Text2World, based on planning
domain definition language (PDDL), featuring hundreds of diverse domains and
employing multi-criteria, execution-based metrics for a more robust evaluation.
We benchmark current LLMs using Text2World and find that reasoning models
trained with large-scale reinforcement learning outperform others. However,
even the best-performing model still demonstrates limited capabilities in world
modeling. Building on these insights, we examine several promising strategies
to enhance the world modeling capabilities of LLMs, including test-time
scaling, agent training, and more. We hope that Text2World can serve as a
crucial resource, laying the groundwork for future research in leveraging LLMs
as world models. The project page is available at
https://text-to-world.github.io/.Summary
AI-Generated Summary