WorldOlympiad: Kann Ihr Weltmodell einen Triathlon überstehen?

Zusammenfassung

Wir präsentieren WorldOlympiad, einen Benchmark zur Diagnose videobasierter Weltmodelle hinsichtlich physikalischer Treue, geometrischer Konsistenz und Interaktionstreue. Während bestehende Benchmarks oft auf visuelle Qualität, semantische Übereinstimmung oder kurzfristige zeitliche Kohärenz fokussieren, bieten sie nur begrenzte Einblicke, ob generierte Videos physikalischen Regeln folgen, kohärente 3D-Strukturen bewahren und über lange Horizonte kontrollierbare Interaktionen aufrechterhalten. Um diese Lücke zu schließen, zerlegt WorldOlympiad die Evaluierung von Weltmodellen in drei komplementäre Dimensionen. Die physikalische Spur verwendet Objektsegmentierung und MLLM-als-Richter, um zu beurteilen, ob generierte Videos interpretierbaren Regeln in Mechanik, thermischen Phänomenen und Materialeigenschaften folgen. Die geometrische Spur rekonstruiert generierte Videos mit Gaussian Splatting und bewertet strukturelle Konsistenz, sichtübergreifende Kohärenz sowie die Ausrichtung der Kameratrajektorie. Die Interaktionsspur beurteilt, ob generierte Rollouts komplexen Aktionsaufforderungen folgen und flüssige, kohärente Übergänge zwischen aufeinanderfolgenden Videosegmenten aufrechterhalten. WorldOlympiad umfasst zudem drei wichtige nachgelagerte Szenarien – Gaming, Robotik und allgemeine reale Videos – und erfasst vielfältige Herausforderungen von interaktiver Steuerung über verkörperte Manipulation bis hin zu offenen Bewegungs- und Kameradynamiken. Zusammen bilden diese Spuren und Szenarien eine skalierbare und interpretierbare Evaluierungssuite, die Fehlermodi jenseits generischer Videoqualität aufdeckt. Experimente mit modernsten Modellen offenbaren erhebliche Lücken im physikalischen Denken, der 3D-Konsistenz und der Langzeitinteraktion und unterstreichen die Notwendigkeit strukturierterer Evaluierungsprotokolle für generative Weltmodelle.

English

We introduce WorldOlympiad, a benchmark for diagnosing video-based world models across physical faithfulness, geometric consistency, and interaction fidelity. While existing benchmarks often focus on visual quality, semantic alignment, or short-term temporal coherence, they provide limited insight into whether generated videos obey physical rules, preserve coherent 3D structure, and sustain controllable interactions over long horizons. To address this gap, WorldOlympiad decomposes world-model evaluation into three complementary dimensions. The physical track uses object segmentation and MLLM-as-judge to assess whether generated videos follow interpretable rules in mechanics, thermal phenomena, and material properties. The geometry track reconstructs generated videos with Gaussian splatting and evaluates structural consistency, cross-view coherence, and camera-trajectory alignment. The interaction track assesses whether generated rollouts follow complex action prompts and maintain smooth, coherent transitions across consecutive video chunks. WorldOlympiad further covers three major downstream scenarios, including gaming, robotics, and general real-world videos, capturing diverse challenges from interactive control and embodied manipulation to open-domain motion and camera dynamics. Together, these tracks and scenarios form a scalable and interpretable evaluation suite that exposes failure modes beyond generic video quality. Experiments on state-of-the-art models reveal substantial gaps in physical reasoning, 3D consistency, and long-horizon interaction, underscoring the need for more structured evaluation protocols for generative world models.