ChatPaper.aiChatPaper

EWMBench: Avaliação da Qualidade de Cena, Movimento e Semântica em Modelos de Mundo Incorporados

EWMBench: Evaluating Scene, Motion, and Semantic Quality in Embodied World Models

May 14, 2025
Autores: Hu Yue, Siyuan Huang, Yue Liao, Shengcong Chen, Pengfei Zhou, Liliang Chen, Maoqing Yao, Guanghui Ren
cs.AI

Resumo

Avanços recentes em IA criativa têm possibilitado a síntese de imagens e vídeos de alta fidelidade condicionados a instruções em linguagem natural. Com base nesses desenvolvimentos, modelos de difusão de texto para vídeo evoluíram para modelos de mundo incorporado (EWMs, do inglês Embodied World Models), capazes de gerar cenas fisicamente plausíveis a partir de comandos de linguagem, efetivamente conectando visão e ação em aplicações de IA incorporada. Este trabalho aborda o desafio crítico de avaliar EWMs além de métricas perceptuais gerais, garantindo a geração de comportamentos fisicamente fundamentados e consistentes com ações. Propomos o Embodied World Model Benchmark (EWMBench), um framework dedicado projetado para avaliar EWMs com base em três aspectos-chave: consistência visual da cena, correção do movimento e alinhamento semântico. Nossa abordagem utiliza um conjunto de dados meticulosamente curado, abrangendo cenas e padrões de movimento diversos, juntamente com um kit de avaliação multidimensional abrangente, para avaliar e comparar modelos candidatos. O benchmark proposto não apenas identifica as limitações dos modelos existentes de geração de vídeo em atender aos requisitos únicos de tarefas incorporadas, mas também fornece insights valiosos para orientar avanços futuros na área. O conjunto de dados e as ferramentas de avaliação estão disponíveis publicamente em https://github.com/AgibotTech/EWMBench.
English
Recent advances in creative AI have enabled the synthesis of high-fidelity images and videos conditioned on language instructions. Building on these developments, text-to-video diffusion models have evolved into embodied world models (EWMs) capable of generating physically plausible scenes from language commands, effectively bridging vision and action in embodied AI applications. This work addresses the critical challenge of evaluating EWMs beyond general perceptual metrics to ensure the generation of physically grounded and action-consistent behaviors. We propose the Embodied World Model Benchmark (EWMBench), a dedicated framework designed to evaluate EWMs based on three key aspects: visual scene consistency, motion correctness, and semantic alignment. Our approach leverages a meticulously curated dataset encompassing diverse scenes and motion patterns, alongside a comprehensive multi-dimensional evaluation toolkit, to assess and compare candidate models. The proposed benchmark not only identifies the limitations of existing video generation models in meeting the unique requirements of embodied tasks but also provides valuable insights to guide future advancements in the field. The dataset and evaluation tools are publicly available at https://github.com/AgibotTech/EWMBench.
PDF192May 16, 2025