WorldOlympiad: ¿Puede tu modelo del mundo sobrevivir a un triatlón?

Resumen

Presentamos WorldOlympiad, un punto de referencia para diagnosticar modelos del mundo basados en vídeo a través de la fidelidad física, la consistencia geométrica y la fidelidad de interacción. Si bien los puntos de referencia existentes a menudo se centran en la calidad visual, la alineación semántica o la coherencia temporal a corto plazo, proporcionan información limitada sobre si los vídeos generados obedecen reglas físicas, preservan una estructura 3D coherente y mantienen interacciones controlables a lo largo de horizontes largos. Para abordar esta brecha, WorldOlympiad descompone la evaluación del modelo del mundo en tres dimensiones complementarias. La pista física utiliza segmentación de objetos y MLLM como juez para evaluar si los vídeos generados siguen reglas interpretables en mecánica, fenómenos térmicos y propiedades de materiales. La pista geométrica reconstruye los vídeos generados con Gaussian splatting y evalúa la consistencia estructural, la coherencia entre vistas y la alineación de la trayectoria de la cámara. La pista de interacción evalúa si los despliegues generados siguen instrucciones de acción complejas y mantienen transiciones suaves y coherentes a través de fragmentos de vídeo consecutivos. WorldOlympiad abarca además tres escenarios principales de aplicación descendente, que incluyen videojuegos, robótica y vídeos generales del mundo real, capturando diversos desafíos que van desde el control interactivo y la manipulación corpórea hasta el movimiento en dominio abierto y la dinámica de cámara. En conjunto, estas pistas y escenarios conforman un conjunto de evaluación escalable e interpretable que expone modos de fallo más allá de la calidad genérica del vídeo. Experimentos con modelos de última generación revelan brechas sustanciales en el razonamiento físico, la consistencia 3D y la interacción a largo plazo, subrayando la necesidad de protocolos de evaluación más estructurados para modelos generativos del mundo.

English

We introduce WorldOlympiad, a benchmark for diagnosing video-based world models across physical faithfulness, geometric consistency, and interaction fidelity. While existing benchmarks often focus on visual quality, semantic alignment, or short-term temporal coherence, they provide limited insight into whether generated videos obey physical rules, preserve coherent 3D structure, and sustain controllable interactions over long horizons. To address this gap, WorldOlympiad decomposes world-model evaluation into three complementary dimensions. The physical track uses object segmentation and MLLM-as-judge to assess whether generated videos follow interpretable rules in mechanics, thermal phenomena, and material properties. The geometry track reconstructs generated videos with Gaussian splatting and evaluates structural consistency, cross-view coherence, and camera-trajectory alignment. The interaction track assesses whether generated rollouts follow complex action prompts and maintain smooth, coherent transitions across consecutive video chunks. WorldOlympiad further covers three major downstream scenarios, including gaming, robotics, and general real-world videos, capturing diverse challenges from interactive control and embodied manipulation to open-domain motion and camera dynamics. Together, these tracks and scenarios form a scalable and interpretable evaluation suite that exposes failure modes beyond generic video quality. Experiments on state-of-the-art models reveal substantial gaps in physical reasoning, 3D consistency, and long-horizon interaction, underscoring the need for more structured evaluation protocols for generative world models.