Un Punto de Referencia para Modelos de Mundo Interactivos con un Marco Unificado de Generación de Acciones

Resumen

Lograr una Inteligencia Artificial General (IAG) requiere agentes que aprendan e interactúen de manera adaptativa, siendo los modelos de mundo interactivos los que proporcionan entornos escalables para la percepción, el razonamiento y la acción. Sin embargo, la investigación actual aún carece de conjuntos de datos a gran escala y puntos de referencia unificados para evaluar sus capacidades de interacción física. Para abordar esta carencia, proponemos iWorld-Bench, un benchmark integral para entrenar y probar modelos de mundo en habilidades relacionadas con la interacción, como la percepción de distancia y la memoria. Construimos un conjunto de datos diverso con 330.000 clips de video y seleccionamos 2.100 muestras de alta calidad que cubren diversas perspectivas, condiciones climáticas y escenas. Dado que los modelos de mundo existentes difieren en sus modalidades de interacción, introducimos un Marco de Generación de Acciones para unificar la evaluación y diseñamos seis tipos de tareas, generando 4.900 muestras de prueba. Estas tareas evalúan conjuntamente el rendimiento del modelo en generación visual, seguimiento de trayectorias y memoria. Tras evaluar 14 modelos de mundo representativos, identificamos limitaciones clave y ofrecemos perspectivas para futuras investigaciones. La clasificación de modelos de iWorld-Bench está disponible públicamente en iWorld-Bench.com.

English

Achieving Artificial General Intelligence (AGI) requires agents that learn and interact adaptively, with interactive world models providing scalable environments for perception, reasoning, and action. Yet current research still lacks large-scale datasets and unified benchmarks to evaluate their physical interaction capabilities. To address this, we propose iWorld-Bench, a comprehensive benchmark for training and testing world models on interaction-related abilities such as distance perception and memory. We construct a diverse dataset with 330k video clips and select 2.1k high-quality samples covering varied perspectives, weather, and scenes. As existing world models differ in interaction modalities, we introduce an Action Generation Framework to unify evaluation and design six task types, generating 4.9k test samples. These tasks jointly assess model performance across visual generation, trajectory following, and memory. Evaluating 14 representative world models, we identify key limitations and provide insights for future research. The iWorld-Bench model leaderboard is publicly available at iWorld-Bench.com.

Un Punto de Referencia para Modelos de Mundo Interactivos con un Marco Unificado de Generación de Acciones

A Benchmark for Interactive World Models with a Unified Action Generation Framework

Resumen

Support