WereldOlympiade: Kan jouw wereldmodel een triatlon overleven?

Samenvatting

We introduceren WorldOlympiad, een benchmark voor het diagnosticeren van video-gebaseerde wereldmodellen op het gebied van fysieke getrouwheid, geometrische consistentie en interactiegetrouwheid. Hoewel bestaande benchmarks zich vaak richten op visuele kwaliteit, semantische alignering of kortetermijn temporele coherentie, bieden ze beperkt inzicht in of gegenereerde video's fysieke regels volgen, een coherente 3D-structuur behouden en beheersbare interacties over lange tijdsperioden volhouden. Om deze leemte aan te pakken, decomposeert WorldOlympiad de wereldmodel-evaluatie in drie complementaire dimensies. De fysieke track gebruikt objectsegmentatie en MLLM-als-rechter om te beoordelen of gegenereerde video's interpreteerbare regels volgen in mechanica, thermische fenomenen en materiaaleigenschappen. De geometrische track reconstrueert gegenereerde video's met Gaussian splatting en evalueert structurele consistentie, cross-view coherentie en camera-trajectorie-uitlijning. De interactietrack beoordeelt of gegenereerde rollouts complexe actieprompts volgen en vloeiende, coherente overgangen over opeenvolgende videoblokken handhaven. WorldOlympiad bestrijkt verder drie belangrijke downstream-scenario's, waaronder gaming, robotica en algemene real-world video's, die diverse uitdagingen vastleggen van interactieve besturing en belichaamde manipulatie tot open-domein beweging en cameradynamiek. Samen vormen deze tracks en scenario's een schaalbare en interpreteerbare evaluatiesuite die faalmodi blootlegt die verder gaan dan generieke videokwaliteit. Experimenten met state-of-the-art modellen onthullen aanzienlijke hiaten in fysiek redeneren, 3D-consistentie en lange-horizon interactie, wat de noodzaak benadrukt van meer gestructureerde evaluatieprotocollen voor generatieve wereldmodellen.

English

We introduce WorldOlympiad, a benchmark for diagnosing video-based world models across physical faithfulness, geometric consistency, and interaction fidelity. While existing benchmarks often focus on visual quality, semantic alignment, or short-term temporal coherence, they provide limited insight into whether generated videos obey physical rules, preserve coherent 3D structure, and sustain controllable interactions over long horizons. To address this gap, WorldOlympiad decomposes world-model evaluation into three complementary dimensions. The physical track uses object segmentation and MLLM-as-judge to assess whether generated videos follow interpretable rules in mechanics, thermal phenomena, and material properties. The geometry track reconstructs generated videos with Gaussian splatting and evaluates structural consistency, cross-view coherence, and camera-trajectory alignment. The interaction track assesses whether generated rollouts follow complex action prompts and maintain smooth, coherent transitions across consecutive video chunks. WorldOlympiad further covers three major downstream scenarios, including gaming, robotics, and general real-world videos, capturing diverse challenges from interactive control and embodied manipulation to open-domain motion and camera dynamics. Together, these tracks and scenarios form a scalable and interpretable evaluation suite that exposes failure modes beyond generic video quality. Experiments on state-of-the-art models reveal substantial gaps in physical reasoning, 3D consistency, and long-horizon interaction, underscoring the need for more structured evaluation protocols for generative world models.