EWMBench: Evaluatie van scène-, beweging- en semantische kwaliteit in belichaamde wereldmodellen

Samenvatting

Recente vooruitgang in creatieve AI heeft de synthese van hoogwaardige afbeeldingen en video's mogelijk gemaakt, gebaseerd op taal instructies. Op basis van deze ontwikkelingen zijn tekst-naar-video diffusiemodellen geëvolueerd naar embodied world models (EWMs) die in staat zijn fysiek plausibele scènes te genereren vanuit taalcommando's, waardoor visie en actie in embodied AI-toepassingen effectief worden verbonden. Dit werk richt zich op de kritieke uitdaging om EWMs te evalueren voorbij algemene perceptuele metriek, om ervoor te zorgen dat fysiek onderbouwde en actie-consistente gedragingen worden gegenereerd. Wij stellen de Embodied World Model Benchmark (EWMBench) voor, een speciaal ontworpen framework om EWMs te evalueren op basis van drie belangrijke aspecten: visuele scèneconsistentie, bewegingcorrectheid en semantische uitlijning. Onze aanpak maakt gebruik van een zorgvuldig samengestelde dataset die diverse scènes en bewegingspatronen omvat, naast een uitgebreid multidimensionaal evaluatie-instrumentarium, om kandidaatmodellen te beoordelen en te vergelijken. De voorgestelde benchmark identificeert niet alleen de beperkingen van bestaande videogeneratiemodellen in het voldoen aan de unieke eisen van embodied taken, maar biedt ook waardevolle inzichten om toekomstige vooruitgang in het veld te begeleiden. De dataset en evaluatietools zijn publiekelijk beschikbaar op https://github.com/AgibotTech/EWMBench.

English

Recent advances in creative AI have enabled the synthesis of high-fidelity images and videos conditioned on language instructions. Building on these developments, text-to-video diffusion models have evolved into embodied world models (EWMs) capable of generating physically plausible scenes from language commands, effectively bridging vision and action in embodied AI applications. This work addresses the critical challenge of evaluating EWMs beyond general perceptual metrics to ensure the generation of physically grounded and action-consistent behaviors. We propose the Embodied World Model Benchmark (EWMBench), a dedicated framework designed to evaluate EWMs based on three key aspects: visual scene consistency, motion correctness, and semantic alignment. Our approach leverages a meticulously curated dataset encompassing diverse scenes and motion patterns, alongside a comprehensive multi-dimensional evaluation toolkit, to assess and compare candidate models. The proposed benchmark not only identifies the limitations of existing video generation models in meeting the unique requirements of embodied tasks but also provides valuable insights to guide future advancements in the field. The dataset and evaluation tools are publicly available at https://github.com/AgibotTech/EWMBench.

EWMBench: Evaluatie van scène-, beweging- en semantische kwaliteit in belichaamde wereldmodellen

EWMBench: Evaluating Scene, Motion, and Semantic Quality in Embodied World Models

Samenvatting

Summary

Support

Support