EWMBench: エンボディド・ワールドモデルにおけるシーン、モーション、セマンティック品質の評価
EWMBench: Evaluating Scene, Motion, and Semantic Quality in Embodied World Models
May 14, 2025
著者: Hu Yue, Siyuan Huang, Yue Liao, Shengcong Chen, Pengfei Zhou, Liliang Chen, Maoqing Yao, Guanghui Ren
cs.AI
要旨
近年の創造的AIの進展により、言語指示に基づいた高精細な画像や動画の合成が可能となった。これらの発展を基盤として、テキストから動画を生成する拡散モデルは、言語コマンドから物理的に妥当なシーンを生成可能な具象化世界モデル(Embodied World Models, EWMs)へと進化し、具象化AIアプリケーションにおける視覚と行動の橋渡しを効果的に実現している。本研究は、一般的な知覚的評価指標を超えて、物理的に根拠があり行動と整合性のある振る舞いを生成するEWMsの評価における重要な課題に取り組む。我々は、視覚的シーン整合性、動作の正確性、および意味的整合性という3つの主要な側面に基づいてEWMsを評価するための専用フレームワークである「具象化世界モデルベンチマーク(Embodied World Model Benchmark, EWMBench)」を提案する。本アプローチでは、多様なシーンと動作パターンを網羅した厳選されたデータセットと、多次元的な評価ツールキットを活用し、候補モデルを評価・比較する。提案するベンチマークは、既存の動画生成モデルが具象化タスクの独自の要件を満たす上での限界を明らかにするだけでなく、今後の分野の発展を導くための貴重な洞察を提供する。データセットと評価ツールは、https://github.com/AgibotTech/EWMBench で公開されている。
English
Recent advances in creative AI have enabled the synthesis of high-fidelity
images and videos conditioned on language instructions. Building on these
developments, text-to-video diffusion models have evolved into embodied world
models (EWMs) capable of generating physically plausible scenes from language
commands, effectively bridging vision and action in embodied AI applications.
This work addresses the critical challenge of evaluating EWMs beyond general
perceptual metrics to ensure the generation of physically grounded and
action-consistent behaviors. We propose the Embodied World Model Benchmark
(EWMBench), a dedicated framework designed to evaluate EWMs based on three key
aspects: visual scene consistency, motion correctness, and semantic alignment.
Our approach leverages a meticulously curated dataset encompassing diverse
scenes and motion patterns, alongside a comprehensive multi-dimensional
evaluation toolkit, to assess and compare candidate models. The proposed
benchmark not only identifies the limitations of existing video generation
models in meeting the unique requirements of embodied tasks but also provides
valuable insights to guide future advancements in the field. The dataset and
evaluation tools are publicly available at
https://github.com/AgibotTech/EWMBench.Summary
AI-Generated Summary