EWMBench: Evaluatie van scène-, beweging- en semantische kwaliteit in belichaamde wereldmodellen
EWMBench: Evaluating Scene, Motion, and Semantic Quality in Embodied World Models
May 14, 2025
Auteurs: Hu Yue, Siyuan Huang, Yue Liao, Shengcong Chen, Pengfei Zhou, Liliang Chen, Maoqing Yao, Guanghui Ren
cs.AI
Samenvatting
Recente vooruitgang in creatieve AI heeft de synthese van hoogwaardige afbeeldingen en video's mogelijk gemaakt, gebaseerd op taal instructies. Op basis van deze ontwikkelingen zijn tekst-naar-video diffusiemodellen geëvolueerd naar embodied world models (EWMs) die in staat zijn fysiek plausibele scènes te genereren vanuit taalcommando's, waardoor visie en actie in embodied AI-toepassingen effectief worden verbonden. Dit werk richt zich op de kritieke uitdaging om EWMs te evalueren voorbij algemene perceptuele metriek, om ervoor te zorgen dat fysiek onderbouwde en actie-consistente gedragingen worden gegenereerd. Wij stellen de Embodied World Model Benchmark (EWMBench) voor, een speciaal ontworpen framework om EWMs te evalueren op basis van drie belangrijke aspecten: visuele scèneconsistentie, bewegingcorrectheid en semantische uitlijning. Onze aanpak maakt gebruik van een zorgvuldig samengestelde dataset die diverse scènes en bewegingspatronen omvat, naast een uitgebreid multidimensionaal evaluatie-instrumentarium, om kandidaatmodellen te beoordelen en te vergelijken. De voorgestelde benchmark identificeert niet alleen de beperkingen van bestaande videogeneratiemodellen in het voldoen aan de unieke eisen van embodied taken, maar biedt ook waardevolle inzichten om toekomstige vooruitgang in het veld te begeleiden. De dataset en evaluatietools zijn publiekelijk beschikbaar op https://github.com/AgibotTech/EWMBench.
English
Recent advances in creative AI have enabled the synthesis of high-fidelity
images and videos conditioned on language instructions. Building on these
developments, text-to-video diffusion models have evolved into embodied world
models (EWMs) capable of generating physically plausible scenes from language
commands, effectively bridging vision and action in embodied AI applications.
This work addresses the critical challenge of evaluating EWMs beyond general
perceptual metrics to ensure the generation of physically grounded and
action-consistent behaviors. We propose the Embodied World Model Benchmark
(EWMBench), a dedicated framework designed to evaluate EWMs based on three key
aspects: visual scene consistency, motion correctness, and semantic alignment.
Our approach leverages a meticulously curated dataset encompassing diverse
scenes and motion patterns, alongside a comprehensive multi-dimensional
evaluation toolkit, to assess and compare candidate models. The proposed
benchmark not only identifies the limitations of existing video generation
models in meeting the unique requirements of embodied tasks but also provides
valuable insights to guide future advancements in the field. The dataset and
evaluation tools are publicly available at
https://github.com/AgibotTech/EWMBench.Summary
AI-Generated Summary