EWMBench: Оценка качества сцены, движения и семантики в воплощённых моделях мира
EWMBench: Evaluating Scene, Motion, and Semantic Quality in Embodied World Models
May 14, 2025
Авторы: Hu Yue, Siyuan Huang, Yue Liao, Shengcong Chen, Pengfei Zhou, Liliang Chen, Maoqing Yao, Guanghui Ren
cs.AI
Аннотация
Последние достижения в области креативного ИИ позволили синтезировать высококачественные изображения и видео на основе языковых инструкций. Развивая эти технологии, модели диффузии для преобразования текста в видео эволюционировали в воплощённые мировые модели (Embodied World Models, EWMs), способные генерировать физически правдоподобные сцены из языковых команд, эффективно связывая зрение и действие в приложениях воплощённого ИИ. Данная работа решает важную задачу оценки EWMs за пределами общих перцептивных метрик, чтобы обеспечить генерацию физически обоснованных и согласованных с действиями поведений. Мы предлагаем Embodied World Model Benchmark (EWMBench) — специализированную структуру, предназначенную для оценки EWMs по трём ключевым аспектам: согласованность визуальной сцены, корректность движения и семантическое соответствие. Наш подход использует тщательно отобранный набор данных, охватывающий разнообразные сцены и паттерны движения, а также комплексный многомерный инструментарий оценки для анализа и сравнения моделей. Предложенный бенчмарк не только выявляет ограничения существующих моделей генерации видео в удовлетворении уникальных требований воплощённых задач, но и предоставляет ценные инсайты для направления будущих разработок в этой области. Набор данных и инструменты оценки доступны публично по адресу https://github.com/AgibotTech/EWMBench.
English
Recent advances in creative AI have enabled the synthesis of high-fidelity
images and videos conditioned on language instructions. Building on these
developments, text-to-video diffusion models have evolved into embodied world
models (EWMs) capable of generating physically plausible scenes from language
commands, effectively bridging vision and action in embodied AI applications.
This work addresses the critical challenge of evaluating EWMs beyond general
perceptual metrics to ensure the generation of physically grounded and
action-consistent behaviors. We propose the Embodied World Model Benchmark
(EWMBench), a dedicated framework designed to evaluate EWMs based on three key
aspects: visual scene consistency, motion correctness, and semantic alignment.
Our approach leverages a meticulously curated dataset encompassing diverse
scenes and motion patterns, alongside a comprehensive multi-dimensional
evaluation toolkit, to assess and compare candidate models. The proposed
benchmark not only identifies the limitations of existing video generation
models in meeting the unique requirements of embodied tasks but also provides
valuable insights to guide future advancements in the field. The dataset and
evaluation tools are publicly available at
https://github.com/AgibotTech/EWMBench.