EWMBench: 체화된 세계 모델의 장면, 운동, 의미론적 품질 평가
EWMBench: Evaluating Scene, Motion, and Semantic Quality in Embodied World Models
May 14, 2025
저자: Hu Yue, Siyuan Huang, Yue Liao, Shengcong Chen, Pengfei Zhou, Liliang Chen, Maoqing Yao, Guanghui Ren
cs.AI
초록
최근 창의적 AI의 발전으로 언어 지시에 기반한 고해상도 이미지 및 비디오 합성이 가능해졌다. 이러한 발전을 바탕으로, 텍스트-투-비디오 확산 모델은 물리적으로 타당한 장면을 언어 명령어로부터 생성할 수 있는 체화된 세계 모델(Embodied World Models, EWMs)로 진화하여, 체화된 AI 애플리케이션에서 시각과 행동을 효과적으로 연결하고 있다. 본 연구는 일반적인 지각 지표를 넘어 물리적으로 근거 있고 행동과 일관된 행동을 생성하는 EWMs의 평가라는 중요한 과제를 다룬다. 우리는 시각적 장면 일관성, 동작 정확성, 의미론적 정렬이라는 세 가지 핵심 측면을 기반으로 EWMs를 평가하기 위해 설계된 전용 프레임워크인 체화된 세계 모델 벤치마크(Embodied World Model Benchmark, EWMBench)를 제안한다. 이 접근법은 다양한 장면과 동작 패턴을 포함하는 세심하게 선별된 데이터셋과 포괄적인 다차원 평가 도구를 활용하여 후보 모델을 평가하고 비교한다. 제안된 벤치마크는 기존 비디오 생성 모델이 체화된 작업의 고유한 요구 사항을 충족하는 데 있어 한계를 식별할 뿐만 아니라, 해당 분야의 미래 발전을 이끌기 위한 귀중한 통찰을 제공한다. 데이터셋과 평가 도구는 https://github.com/AgibotTech/EWMBench에서 공개적으로 이용 가능하다.
English
Recent advances in creative AI have enabled the synthesis of high-fidelity
images and videos conditioned on language instructions. Building on these
developments, text-to-video diffusion models have evolved into embodied world
models (EWMs) capable of generating physically plausible scenes from language
commands, effectively bridging vision and action in embodied AI applications.
This work addresses the critical challenge of evaluating EWMs beyond general
perceptual metrics to ensure the generation of physically grounded and
action-consistent behaviors. We propose the Embodied World Model Benchmark
(EWMBench), a dedicated framework designed to evaluate EWMs based on three key
aspects: visual scene consistency, motion correctness, and semantic alignment.
Our approach leverages a meticulously curated dataset encompassing diverse
scenes and motion patterns, alongside a comprehensive multi-dimensional
evaluation toolkit, to assess and compare candidate models. The proposed
benchmark not only identifies the limitations of existing video generation
models in meeting the unique requirements of embodied tasks but also provides
valuable insights to guide future advancements in the field. The dataset and
evaluation tools are publicly available at
https://github.com/AgibotTech/EWMBench.Summary
AI-Generated Summary