ChatPaper.aiChatPaper

EnerVerse-AC: 액션 조건을 통한 구체화된 환경 구상

EnerVerse-AC: Envisioning Embodied Environments with Action Condition

May 14, 2025
저자: Yuxin Jiang, Shengcong Chen, Siyuan Huang, Liliang Chen, Pengfei Zhou, Yue Liao, Xindong He, Chiming Liu, Hongsheng Li, Maoqing Yao, Guanghui Ren
cs.AI

초록

로봇 모방 학습은 정적 작업 해결에서 동적 상호작용 시나리오 대응으로 발전해 왔지만, 실시간 동적 환경과의 상호작용이 필요하기 때문에 테스트와 평가는 여전히 비용이 많이 들고 어려운 과제로 남아 있습니다. 우리는 EnerVerse-AC(EVAC)를 제안합니다. EVAC는 에이전트의 예측된 행동을 기반으로 미래의 시각적 관측을 생성하는 액션-컨디셔널 월드 모델로, 현실적이고 제어 가능한 로봇 추론을 가능하게 합니다. 기존 아키텍처를 기반으로, EVAC는 동적 다중 뷰 이미지 생성을 위한 다단계 액션-컨디셔닝 메커니즘과 레이 맵 인코딩을 도입하고, 다양한 실패 궤적을 포함한 학습 데이터를 확장하여 일반화 성능을 향상시켰습니다. 데이터 엔진이자 평가자로서, EVAC는 인간이 수집한 궤적을 다양한 데이터셋으로 증강하고, 물리적 로봇이나 복잡한 시뮬레이션 없이도 현실적인 액션-컨디셔널 비디오 관측을 생성하여 정책 테스트를 가능하게 합니다. 이 접근 방식은 로봇 조작 평가에서 높은 충실도를 유지하면서도 비용을 크게 절감합니다. 광범위한 실험을 통해 우리 방법의 효과성을 검증했습니다. 코드, 체크포인트, 데이터셋은 <https://annaj2178.github.io/EnerverseAC.github.io>에서 확인할 수 있습니다.
English
Robotic imitation learning has advanced from solving static tasks to addressing dynamic interaction scenarios, but testing and evaluation remain costly and challenging due to the need for real-time interaction with dynamic environments. We propose EnerVerse-AC (EVAC), an action-conditional world model that generates future visual observations based on an agent's predicted actions, enabling realistic and controllable robotic inference. Building on prior architectures, EVAC introduces a multi-level action-conditioning mechanism and ray map encoding for dynamic multi-view image generation while expanding training data with diverse failure trajectories to improve generalization. As both a data engine and evaluator, EVAC augments human-collected trajectories into diverse datasets and generates realistic, action-conditioned video observations for policy testing, eliminating the need for physical robots or complex simulations. This approach significantly reduces costs while maintaining high fidelity in robotic manipulation evaluation. Extensive experiments validate the effectiveness of our method. Code, checkpoints, and datasets can be found at <https://annaj2178.github.io/EnerverseAC.github.io>.

Summary

AI-Generated Summary

PDF182May 16, 2025