ChatPaper.aiChatPaper

Un Punto de Referencia para Modelos de Mundo Interactivos con un Marco Unificado de Generación de Acciones

A Benchmark for Interactive World Models with a Unified Action Generation Framework

May 5, 2026
Autores: Jianjie Fang, Yingshan Lei, Qin Wan, Ziyou Wang, Yuchao Huang, Yongyan Xu, Baining Zhao, Weichen Zhang, Chen Gao, Xinlei Chen, Yong Li
cs.AI

Resumen

Lograr una Inteligencia Artificial General (IAG) requiere agentes que aprendan e interactúen de manera adaptativa, siendo los modelos de mundo interactivos los que proporcionan entornos escalables para la percepción, el razonamiento y la acción. Sin embargo, la investigación actual aún carece de conjuntos de datos a gran escala y puntos de referencia unificados para evaluar sus capacidades de interacción física. Para abordar esta carencia, proponemos iWorld-Bench, un benchmark integral para entrenar y probar modelos de mundo en habilidades relacionadas con la interacción, como la percepción de distancia y la memoria. Construimos un conjunto de datos diverso con 330.000 clips de video y seleccionamos 2.100 muestras de alta calidad que cubren diversas perspectivas, condiciones climáticas y escenas. Dado que los modelos de mundo existentes difieren en sus modalidades de interacción, introducimos un Marco de Generación de Acciones para unificar la evaluación y diseñamos seis tipos de tareas, generando 4.900 muestras de prueba. Estas tareas evalúan conjuntamente el rendimiento del modelo en generación visual, seguimiento de trayectorias y memoria. Tras evaluar 14 modelos de mundo representativos, identificamos limitaciones clave y ofrecemos perspectivas para futuras investigaciones. La clasificación de modelos de iWorld-Bench está disponible públicamente en iWorld-Bench.com.
English
Achieving Artificial General Intelligence (AGI) requires agents that learn and interact adaptively, with interactive world models providing scalable environments for perception, reasoning, and action. Yet current research still lacks large-scale datasets and unified benchmarks to evaluate their physical interaction capabilities. To address this, we propose iWorld-Bench, a comprehensive benchmark for training and testing world models on interaction-related abilities such as distance perception and memory. We construct a diverse dataset with 330k video clips and select 2.1k high-quality samples covering varied perspectives, weather, and scenes. As existing world models differ in interaction modalities, we introduce an Action Generation Framework to unify evaluation and design six task types, generating 4.9k test samples. These tasks jointly assess model performance across visual generation, trajectory following, and memory. Evaluating 14 representative world models, we identify key limitations and provide insights for future research. The iWorld-Bench model leaderboard is publicly available at iWorld-Bench.com.
PDF12May 7, 2026