Un Benchmark pour les Modèles de Monde Interactifs avec un Cadre Unifié de Génération d'Actions

Résumé

La réalisation d'une intelligence artificielle générale (IAG) nécessite des agents capables d'apprendre et d'interagir de manière adaptative, les modèles du monde interactifs offrant des environnements évolutifs pour la perception, le raisonnement et l'action. Pourtant, la recherche actuelle manque encore de jeux de données à grande échelle et de référentiels unifiés pour évaluer leurs capacités d'interaction physique. Pour remédier à cela, nous proposons iWorld-Bench, un référentiel complet pour l'entraînement et l'évaluation des modèles du monde sur des capacités liées à l'interaction telles que la perception des distances et la mémoire. Nous constituons un jeu de données diversifié comprenant 330 000 clips vidéo et sélectionnons 2 100 échantillons de haute qualité couvrant diverses perspectives, conditions météorologiques et scènes. Comme les modèles du monde existants diffèrent par leurs modalités d'interaction, nous introduisons un cadre de génération d'actions pour unifier l'évaluation et concevons six types de tâches, générant 4 900 échantillons de test. Ces tâches évaluent conjointement les performances des modèles en matière de génération visuelle, de suivi de trajectoire et de mémoire. En évaluant 14 modèles du monde représentatifs, nous identifions des limitations clés et fournissons des perspectives pour les recherches futures. Le classement des modèles iWorld-Bench est accessible publiquement sur iWorld-Bench.com.

English

Achieving Artificial General Intelligence (AGI) requires agents that learn and interact adaptively, with interactive world models providing scalable environments for perception, reasoning, and action. Yet current research still lacks large-scale datasets and unified benchmarks to evaluate their physical interaction capabilities. To address this, we propose iWorld-Bench, a comprehensive benchmark for training and testing world models on interaction-related abilities such as distance perception and memory. We construct a diverse dataset with 330k video clips and select 2.1k high-quality samples covering varied perspectives, weather, and scenes. As existing world models differ in interaction modalities, we introduce an Action Generation Framework to unify evaluation and design six task types, generating 4.9k test samples. These tasks jointly assess model performance across visual generation, trajectory following, and memory. Evaluating 14 representative world models, we identify key limitations and provide insights for future research. The iWorld-Bench model leaderboard is publicly available at iWorld-Bench.com.

Un Benchmark pour les Modèles de Monde Interactifs avec un Cadre Unifié de Génération d'Actions

A Benchmark for Interactive World Models with a Unified Action Generation Framework

Résumé

Support