WorldMark: Единый набор тестов для интерактивных видеомоделей мира

Аннотация

Модели интерактивной генерации видео, такие как Genie, YUME, HY-World и Matrix-Game, быстро развиваются, однако каждая модель оценивается на собственном наборе данных с приватными сценами и траекториями, что делает невозможным объективное сравнение между моделями. Существующие публичные бенчмарки предлагают полезные метрики, такие как ошибка траектории, эстетические оценки и оценки на основе VLM, но ни один из них не предоставляет стандартизированных условий тестирования — идентичных сцен, идентичных последовательностей действий и унифицированного интерфейса управления, — необходимых для сопоставимости этих метрик между моделями с разнородными входами. Мы представляем WorldMark — первый бенчмарк, который обеспечивает такую общую основу для интерактивных мировых моделей типа «изображение-в-видео». WorldMark предлагает: (1) унифицированный слой преобразования действий, который переводит общий словарь действий в стиле WASD в собственный формат управления каждой модели, позволяя проводить корректное сравнение шести основных моделей на идентичных сценах и траекториях; (2) иерархический тестовый набор из 500 сценариев оценки, охватывающих виды от первого и третьего лица, фотореалистичные и стилизованные сцены, а также три уровня сложности от Легкого до Сложного продолжительностью 20–60 секунд; и (3) модульный инструментарий оценки для визуального качества, соответствия управления и согласованности мира, разработанный так, что исследователи могут повторно использовать наши стандартизированные входные данные, подключая собственные метрики по мере развития области. Мы опубликуем все данные, код оценки и выходы моделей для содействия будущим исследованиям. Помимо офлайн-метрик, мы запускаем World Model Arena (warena.ai) — онлайн-платформу, где любой может столкнуть ведущие мировые модели в параллельных соревнованиях и наблюдать за живым рейтингом.

English

Interactive video generation models such as Genie, YUME, HY-World, and Matrix-Game are advancing rapidly, yet every model is evaluated on its own benchmark with private scenes and trajectories, making fair cross-model comparison impossible. Existing public benchmarks offer useful metrics such as trajectory error, aesthetic scores, and VLM-based judgments, but none supplies the standardized test conditions -- identical scenes, identical action sequences, and a unified control interface -- needed to make those metrics comparable across models with heterogeneous inputs. We introduce WorldMark, the first benchmark that provides such a common playing field for interactive Image-to-Video world models. WorldMark contributes: (1) a unified action-mapping layer that translates a shared WASD-style action vocabulary into each model's native control format, enabling apples-to-apples comparison across six major models on identical scenes and trajectories; (2) a hierarchical test suite of 500 evaluation cases covering first- and third-person viewpoints, photorealistic and stylized scenes, and three difficulty tiers from Easy to Hard spanning 20-60s; and (3) a modular evaluation toolkit for Visual Quality, Control Alignment, and World Consistency, designed so that researchers can reuse our standardized inputs while plugging in their own metrics as the field evolves. We will release all data, evaluation code, and model outputs to facilitate future research. Beyond offline metrics, we launch World Model Arena (warena.ai), an online platform where anyone can pit leading world models against each other in side-by-side battles and watch the live leaderboard.

WorldMark: Единый набор тестов для интерактивных видеомоделей мира

WorldMark: A Unified Benchmark Suite for Interactive Video World Models

Аннотация

Support