WorldOlympiad : Votre modèle du monde peut-il survivre à un triathlon ?

Résumé

Nous présentons WorldOlympiad, un référentiel conçu pour diagnostiquer les modèles du monde basés sur la vidéo selon la fidélité physique, la cohérence géométrique et la fiabilité des interactions. Alors que les référentiels existants se concentrent souvent sur la qualité visuelle, l'alignement sémantique ou la cohérence temporelle à court terme, ils offrent un aperçu limité de la capacité des vidéos générées à respecter les lois physiques, à préserver une structure 3D cohérente et à soutenir des interactions contrôlables sur de longs horizons. Pour combler cette lacune, WorldOlympiad décompose l'évaluation des modèles du monde en trois dimensions complémentaires. Le volet physique utilise la segmentation d'objets et un MLLM comme juge pour évaluer si les vidéos générées suivent des règles interprétables en mécanique, phénomènes thermiques et propriétés des matériaux. Le volet géométrique reconstruit les vidéos générées par éclaboussure gaussienne et évalue la cohérence structurelle, la cohérence inter-vues et l'alignement de la trajectoire de la caméra. Le volet interaction évalue si les déroulements générés suivent des instructions d'action complexes et maintiennent des transitions fluides et cohérentes entre des segments vidéo consécutifs. WorldOlympiad couvre en outre trois grands scénarios d'application, incluant les jeux vidéo, la robotique et les vidéos générales du monde réel, capturant divers défis allant du contrôle interactif et de la manipulation incarnée au mouvement en domaine ouvert et à la dynamique de caméra. Ensemble, ces volets et scénarios forment une suite d'évaluation scalable et interprétable qui expose les modes d'échec au-delà de la qualité vidéo générique. Les expériences menées sur des modèles de pointe révèlent des lacunes substantielles dans le raisonnement physique, la cohérence 3D et l'interaction à long horizon, soulignant la nécessité de protocoles d'évaluation plus structurés pour les modèles génératifs du monde.

English

We introduce WorldOlympiad, a benchmark for diagnosing video-based world models across physical faithfulness, geometric consistency, and interaction fidelity. While existing benchmarks often focus on visual quality, semantic alignment, or short-term temporal coherence, they provide limited insight into whether generated videos obey physical rules, preserve coherent 3D structure, and sustain controllable interactions over long horizons. To address this gap, WorldOlympiad decomposes world-model evaluation into three complementary dimensions. The physical track uses object segmentation and MLLM-as-judge to assess whether generated videos follow interpretable rules in mechanics, thermal phenomena, and material properties. The geometry track reconstructs generated videos with Gaussian splatting and evaluates structural consistency, cross-view coherence, and camera-trajectory alignment. The interaction track assesses whether generated rollouts follow complex action prompts and maintain smooth, coherent transitions across consecutive video chunks. WorldOlympiad further covers three major downstream scenarios, including gaming, robotics, and general real-world videos, capturing diverse challenges from interactive control and embodied manipulation to open-domain motion and camera dynamics. Together, these tracks and scenarios form a scalable and interpretable evaluation suite that exposes failure modes beyond generic video quality. Experiments on state-of-the-art models reveal substantial gaps in physical reasoning, 3D consistency, and long-horizon interaction, underscoring the need for more structured evaluation protocols for generative world models.