WorldMark: Um Conjunto de Benchmark Unificado para Modelos de Mundo de Vídeo Interativos

Resumo

Modelos de geração de vídeo interativo como Genie, YUME, HY-World e Matrix-Game estão avançando rapidamente, mas cada modelo é avaliado em seu próprio benchmark com cenas e trajetórias privadas, tornando impossível uma comparação justa entre modelos. Benchmarks públicos existentes oferecem métricas úteis como erro de trajetória, pontuações estéticas e avaliações baseadas em VLMs, mas nenhum fornece as condições padronizadas de teste – cenas idênticas, sequências de ação idênticas e uma interface de controle unificada – necessárias para tornar essas métricas comparáveis entre modelos com entradas heterogêneas. Apresentamos o WorldMark, o primeiro benchmark que fornece esse campo comum para modelos de mundo interativos do tipo Imagem-para-Vídeo. O WorldMark contribui com: (1) uma camada unificada de mapeamento de ações que traduz um vocabulário de ação compartilhado no estilo WASD para o formato de controle nativo de cada modelo, permitindo comparação direta entre seis modelos principais em cenas e trajetórias idênticas; (2) um conjunto de testes hierárquico com 500 casos de avaliação cobrando perspectivas em primeira e terceira pessoa, cenas realistas e estilizadas, e três níveis de dificuldade (Fácil, Médio, Difícil) abrangendo 20-60 segundos; e (3) um kit de ferramentas de avaliação modular para Qualidade Visual, Alinhamento de Controle e Consistência do Mundo, projetado para que pesquisadores possam reutilizar nossas entradas padronizadas enquanto inserem suas próprias métricas conforme o campo evolui. Liberaremos todos os dados, código de avaliação e saídas dos modelos para facilitar pesquisas futuras. Além das métricas offline, lançamos a World Model Arena (warena.ai), uma plataforma online onde qualquer pessoa pode colocar os principais modelos de mundo em competição lado a lado e acompanhar a tabela de classificação em tempo real.

English

Interactive video generation models such as Genie, YUME, HY-World, and Matrix-Game are advancing rapidly, yet every model is evaluated on its own benchmark with private scenes and trajectories, making fair cross-model comparison impossible. Existing public benchmarks offer useful metrics such as trajectory error, aesthetic scores, and VLM-based judgments, but none supplies the standardized test conditions -- identical scenes, identical action sequences, and a unified control interface -- needed to make those metrics comparable across models with heterogeneous inputs. We introduce WorldMark, the first benchmark that provides such a common playing field for interactive Image-to-Video world models. WorldMark contributes: (1) a unified action-mapping layer that translates a shared WASD-style action vocabulary into each model's native control format, enabling apples-to-apples comparison across six major models on identical scenes and trajectories; (2) a hierarchical test suite of 500 evaluation cases covering first- and third-person viewpoints, photorealistic and stylized scenes, and three difficulty tiers from Easy to Hard spanning 20-60s; and (3) a modular evaluation toolkit for Visual Quality, Control Alignment, and World Consistency, designed so that researchers can reuse our standardized inputs while plugging in their own metrics as the field evolves. We will release all data, evaluation code, and model outputs to facilitate future research. Beyond offline metrics, we launch World Model Arena (warena.ai), an online platform where anyone can pit leading world models against each other in side-by-side battles and watch the live leaderboard.

WorldMark: Um Conjunto de Benchmark Unificado para Modelos de Mundo de Vídeo Interativos

WorldMark: A Unified Benchmark Suite for Interactive Video World Models

Resumo

Support