EWMBench: Evaluación de la Calidad Escénica, de Movimiento y Semántica en Modelos de Mundo Encarnados
EWMBench: Evaluating Scene, Motion, and Semantic Quality in Embodied World Models
May 14, 2025
Autores: Hu Yue, Siyuan Huang, Yue Liao, Shengcong Chen, Pengfei Zhou, Liliang Chen, Maoqing Yao, Guanghui Ren
cs.AI
Resumen
Los recientes avances en IA creativa han permitido la síntesis de imágenes y videos de alta fidelidad condicionados por instrucciones en lenguaje natural. Basándose en estos desarrollos, los modelos de difusión de texto a video han evolucionado hacia modelos de mundo encarnado (EWMs, por sus siglas en inglés) capaces de generar escenas físicamente plausibles a partir de comandos de lenguaje, conectando efectivamente la visión y la acción en aplicaciones de IA encarnada. Este trabajo aborda el desafío crítico de evaluar los EWMs más allá de las métricas perceptuales generales, para garantizar la generación de comportamientos físicamente fundamentados y consistentes con la acción. Proponemos el Embodied World Model Benchmark (EWMBench), un marco dedicado diseñado para evaluar los EWMs en tres aspectos clave: consistencia visual de la escena, corrección del movimiento y alineación semántica. Nuestro enfoque aprovecha un conjunto de datos meticulosamente curado que abarca diversas escenas y patrones de movimiento, junto con un kit de evaluación multidimensional integral, para evaluar y comparar modelos candidatos. El benchmark propuesto no solo identifica las limitaciones de los modelos existentes de generación de video para cumplir con los requisitos únicos de las tareas encarnadas, sino que también proporciona insights valiosos para guiar futuros avances en el campo. El conjunto de datos y las herramientas de evaluación están disponibles públicamente en https://github.com/AgibotTech/EWMBench.
English
Recent advances in creative AI have enabled the synthesis of high-fidelity
images and videos conditioned on language instructions. Building on these
developments, text-to-video diffusion models have evolved into embodied world
models (EWMs) capable of generating physically plausible scenes from language
commands, effectively bridging vision and action in embodied AI applications.
This work addresses the critical challenge of evaluating EWMs beyond general
perceptual metrics to ensure the generation of physically grounded and
action-consistent behaviors. We propose the Embodied World Model Benchmark
(EWMBench), a dedicated framework designed to evaluate EWMs based on three key
aspects: visual scene consistency, motion correctness, and semantic alignment.
Our approach leverages a meticulously curated dataset encompassing diverse
scenes and motion patterns, alongside a comprehensive multi-dimensional
evaluation toolkit, to assess and compare candidate models. The proposed
benchmark not only identifies the limitations of existing video generation
models in meeting the unique requirements of embodied tasks but also provides
valuable insights to guide future advancements in the field. The dataset and
evaluation tools are publicly available at
https://github.com/AgibotTech/EWMBench.Summary
AI-Generated Summary