WorldOlympiad: O seu modelo de mundo consegue sobreviver a um triatlo?

Resumo

Apresentamos o WorldOlympiad, um conjunto de referência para diagnosticar modelos de mundo baseados em vídeo, abrangendo fidelidade física, consistência geométrica e fidelidade de interação. Embora os benchmarks existentes frequentemente foquem na qualidade visual, alinhamento semântico ou coerência temporal de curto prazo, eles oferecem insights limitados sobre se os vídeos gerados obedecem a regras físicas, preservam estrutura 3D coerente e sustentam interações controláveis em horizontes longos. Para preencher essa lacuna, o WorldOlympiad decompõe a avaliação de modelos de mundo em três dimensões complementares. A trilha física utiliza segmentação de objetos e MLLM como juiz para avaliar se os vídeos gerados seguem regras interpretáveis em mecânica, fenômenos térmicos e propriedades de materiais. A trilha geométrica reconstrói os vídeos gerados com *Gaussian splatting* e avalia consistência estrutural, coerência entre vistas e alinhamento da trajetória da câmera. A trilha de interação avalia se as sequências geradas seguem comandos de ação complexos e mantêm transições suaves e coerentes entre segmentos consecutivos de vídeo. O WorldOlympiad ainda abrange três cenários principais de aplicação a jusante, incluindo jogos, robótica e vídeos gerais do mundo real, capturando diversos desafios desde controle interativo e manipulação incorporada até dinâmica de movimento e câmera em domínio aberto. Juntas, essas trilhas e cenários formam um conjunto de avaliação escalável e interpretável que expõe modos de falha além da qualidade genérica de vídeo. Experimentos com modelos de ponta revelam lacunas substanciais em raciocínio físico, consistência 3D e interação de longo horizonte, destacando a necessidade de protocolos de avaliação mais estruturados para modelos de mundo generativos.

English

We introduce WorldOlympiad, a benchmark for diagnosing video-based world models across physical faithfulness, geometric consistency, and interaction fidelity. While existing benchmarks often focus on visual quality, semantic alignment, or short-term temporal coherence, they provide limited insight into whether generated videos obey physical rules, preserve coherent 3D structure, and sustain controllable interactions over long horizons. To address this gap, WorldOlympiad decomposes world-model evaluation into three complementary dimensions. The physical track uses object segmentation and MLLM-as-judge to assess whether generated videos follow interpretable rules in mechanics, thermal phenomena, and material properties. The geometry track reconstructs generated videos with Gaussian splatting and evaluates structural consistency, cross-view coherence, and camera-trajectory alignment. The interaction track assesses whether generated rollouts follow complex action prompts and maintain smooth, coherent transitions across consecutive video chunks. WorldOlympiad further covers three major downstream scenarios, including gaming, robotics, and general real-world videos, capturing diverse challenges from interactive control and embodied manipulation to open-domain motion and camera dynamics. Together, these tracks and scenarios form a scalable and interpretable evaluation suite that exposes failure modes beyond generic video quality. Experiments on state-of-the-art models reveal substantial gaps in physical reasoning, 3D consistency, and long-horizon interaction, underscoring the need for more structured evaluation protocols for generative world models.