WorldOlympiad: Сможет ли ваша модель мира пройти триатлон?

Аннотация

Мы представляем WorldOlympiad — бенчмарк для диагностики видеомоделей мира по таким аспектам, как физическая достоверность, геометрическая согласованность и точность взаимодействия. В то время как существующие бенчмарки часто фокусируются на визуальном качестве, семантическом соответствии или краткосрочной временной согласованности, они дают ограниченное представление о том, следуют ли сгенерированные видео физическим законам, сохраняют ли когерентную 3D-структуру и поддерживают ли управляемые взаимодействия на длинных горизонтах. Для устранения этого пробела WorldOlympiad разбивает оценку моделей мира на три взаимодополняющих измерения. Физический трек использует сегментацию объектов и MLLM-судью для оценки того, следуют ли сгенерированные видео интерпретируемым правилам в механике, тепловых явлениях и свойствах материалов. Геометрический трек реконструирует сгенерированные видео с помощью гауссовского сплаттинга и оценивает структурную согласованность, межвидовую когерентность и согласованность траекторий камеры. Интеракционный трек оценивает, следуют ли сгенерированные развертывания сложным подсказкам действий и поддерживают ли плавные, когерентные переходы между последовательными видеофрагментами. WorldOlympiad также охватывает три основных сценария применения, включая игры, робототехнику и общие видеоролики реального мира, отражая разнообразные задачи от интерактивного управления и воплощенных манипуляций до динамики движения в открытых доменах и камерной динамики. В совокупности эти треки и сценарии образуют масштабируемый и интерпретируемый набор для оценки, который выявляет режимы отказов, выходящие за рамки общего качества видео. Эксперименты с передовыми моделями демонстрируют существенные пробелы в физическом мышлении, трехмерной согласованности и взаимодействии на длинных горизонтах, подчеркивая необходимость более структурированных протоколов оценки для генеративных моделей мира.

English

We introduce WorldOlympiad, a benchmark for diagnosing video-based world models across physical faithfulness, geometric consistency, and interaction fidelity. While existing benchmarks often focus on visual quality, semantic alignment, or short-term temporal coherence, they provide limited insight into whether generated videos obey physical rules, preserve coherent 3D structure, and sustain controllable interactions over long horizons. To address this gap, WorldOlympiad decomposes world-model evaluation into three complementary dimensions. The physical track uses object segmentation and MLLM-as-judge to assess whether generated videos follow interpretable rules in mechanics, thermal phenomena, and material properties. The geometry track reconstructs generated videos with Gaussian splatting and evaluates structural consistency, cross-view coherence, and camera-trajectory alignment. The interaction track assesses whether generated rollouts follow complex action prompts and maintain smooth, coherent transitions across consecutive video chunks. WorldOlympiad further covers three major downstream scenarios, including gaming, robotics, and general real-world videos, capturing diverse challenges from interactive control and embodied manipulation to open-domain motion and camera dynamics. Together, these tracks and scenarios form a scalable and interpretable evaluation suite that exposes failure modes beyond generic video quality. Experiments on state-of-the-art models reveal substantial gaps in physical reasoning, 3D consistency, and long-horizon interaction, underscoring the need for more structured evaluation protocols for generative world models.