EnerVerse-AC : Imaginer des environnements incarnés avec condition d'action
EnerVerse-AC: Envisioning Embodied Environments with Action Condition
May 14, 2025
Auteurs: Yuxin Jiang, Shengcong Chen, Siyuan Huang, Liliang Chen, Pengfei Zhou, Yue Liao, Xindong He, Chiming Liu, Hongsheng Li, Maoqing Yao, Guanghui Ren
cs.AI
Résumé
L'apprentissage par imitation robotique a évolué de la résolution de tâches statiques à la gestion de scénarios d'interaction dynamiques, mais les tests et l'évaluation restent coûteux et complexes en raison de la nécessité d'une interaction en temps réel avec des environnements dynamiques. Nous proposons EnerVerse-AC (EVAC), un modèle de monde conditionnel par actions qui génère des observations visuelles futures en fonction des actions prédites par un agent, permettant une inférence robotique réaliste et contrôlable. S'appuyant sur des architectures antérieures, EVAC introduit un mécanisme de conditionnement par actions multi-niveaux et un encodage de carte de rayons pour la génération dynamique d'images multi-vues, tout en enrichissant les données d'entraînement avec des trajectoires d'échec variées pour améliorer la généralisation. En tant que moteur de données et évaluateur, EVAC enrichit les trajectoires collectées par l'homme en ensembles de données diversifiés et génère des observations vidéo réalistes conditionnées par les actions pour tester les politiques, éliminant ainsi le besoin de robots physiques ou de simulations complexes. Cette approche réduit considérablement les coûts tout en maintenant une haute fidélité dans l'évaluation de la manipulation robotique. Des expériences approfondies valident l'efficacité de notre méthode. Le code, les points de contrôle et les ensembles de données sont disponibles à l'adresse <https://annaj2178.github.io/EnerverseAC.github.io>.
English
Robotic imitation learning has advanced from solving static tasks to
addressing dynamic interaction scenarios, but testing and evaluation remain
costly and challenging due to the need for real-time interaction with dynamic
environments. We propose EnerVerse-AC (EVAC), an action-conditional world model
that generates future visual observations based on an agent's predicted
actions, enabling realistic and controllable robotic inference. Building on
prior architectures, EVAC introduces a multi-level action-conditioning
mechanism and ray map encoding for dynamic multi-view image generation while
expanding training data with diverse failure trajectories to improve
generalization. As both a data engine and evaluator, EVAC augments
human-collected trajectories into diverse datasets and generates realistic,
action-conditioned video observations for policy testing, eliminating the need
for physical robots or complex simulations. This approach significantly reduces
costs while maintaining high fidelity in robotic manipulation evaluation.
Extensive experiments validate the effectiveness of our method. Code,
checkpoints, and datasets can be found at
<https://annaj2178.github.io/EnerverseAC.github.io>.Summary
AI-Generated Summary