EnerVerse-AC: Verkörperte Umgebungen mit Aktionsbedingung konzipieren
EnerVerse-AC: Envisioning Embodied Environments with Action Condition
May 14, 2025
Autoren: Yuxin Jiang, Shengcong Chen, Siyuan Huang, Liliang Chen, Pengfei Zhou, Yue Liao, Xindong He, Chiming Liu, Hongsheng Li, Maoqing Yao, Guanghui Ren
cs.AI
Zusammenfassung
Das Imitationslernen in der Robotik hat sich von der Lösung statischer Aufgaben zur Bewältigung dynamischer Interaktionsszenarien weiterentwickelt, doch Tests und Bewertungen bleiben aufgrund der Notwendigkeit von Echtzeitinteraktionen mit dynamischen Umgebungen kostspielig und herausfordernd. Wir schlagen EnerVerse-AC (EVAC) vor, ein aktionsbedingtes Weltmodell, das zukünftige visuelle Beobachtungen basierend auf den vorhergesagten Aktionen eines Agenten generiert und so realistische und kontrollierbare robotische Inferenz ermöglicht. Aufbauend auf früheren Architekturen führt EVAC einen mehrstufigen Aktionsbedingungsmechanismus und eine Strahlenkartenkodierung für die dynamische Erzeugung von Mehransichtsbildern ein, während es gleichzeitig die Trainingsdaten durch diverse Fehlertrajektorien erweitert, um die Generalisierung zu verbessern. Als Datenengine und Evaluator erweitert EVAC menschlich gesammelte Trajektorien zu diversen Datensätzen und erzeugt realistische, aktionsbedingte Video-Beobachtungen für die Richtlinientests, wodurch der Bedarf an physischen Robotern oder komplexen Simulationen entfällt. Dieser Ansatz reduziert die Kosten erheblich, während gleichzeitig eine hohe Genauigkeit bei der Bewertung der robotischen Manipulation gewährleistet wird. Umfangreiche Experimente bestätigen die Wirksamkeit unserer Methode. Code, Checkpoints und Datensätze finden Sie unter <https://annaj2178.github.io/EnerverseAC.github.io>.
English
Robotic imitation learning has advanced from solving static tasks to
addressing dynamic interaction scenarios, but testing and evaluation remain
costly and challenging due to the need for real-time interaction with dynamic
environments. We propose EnerVerse-AC (EVAC), an action-conditional world model
that generates future visual observations based on an agent's predicted
actions, enabling realistic and controllable robotic inference. Building on
prior architectures, EVAC introduces a multi-level action-conditioning
mechanism and ray map encoding for dynamic multi-view image generation while
expanding training data with diverse failure trajectories to improve
generalization. As both a data engine and evaluator, EVAC augments
human-collected trajectories into diverse datasets and generates realistic,
action-conditioned video observations for policy testing, eliminating the need
for physical robots or complex simulations. This approach significantly reduces
costs while maintaining high fidelity in robotic manipulation evaluation.
Extensive experiments validate the effectiveness of our method. Code,
checkpoints, and datasets can be found at
<https://annaj2178.github.io/EnerverseAC.github.io>.Summary
AI-Generated Summary