에너버스: 로봇 조작을 위한 구체적 미래 공간을 상상하다EnerVerse: Envisioning Embodied Future Space for Robotics Manipulation
우리는 EnerVerse를 소개합니다. 이는 로봇 조작 작업을 위해 특별히 설계된 체감형 미래 공간 생성을 위한 포괄적인 프레임워크입니다. EnerVerse는 내부 청크 공간 모델링을 위해 합성곱과 양방향 주의 메커니즘을 매끄럽게 통합하여 저수준 일관성과 연속성을 보장합니다. 비디오 데이터의 내재적 중복을 인식하여, 무한한 길이의 시퀀스 생성을 가능케 하는 희소 메모리 컨텍스트와 청크별 단방향 생성 패러다임을 제안합니다. 로봇 능력을 더욱 강화하기 위해 관측 및 분석을 향상시키는 유연한 관점을 제공하는 Free Anchor View (FAV) 공간을 소개합니다. FAV 공간은 움직임 모델링 모호성을 완화하고, 제약된 환경에서 물리적 제약을 제거하며, 로봇의 일반화 및 적응력을 크게 향상시킵니다. 다중 카메라 관측 획득의 비용과 노동 강도를 해소하기 위해, 4D 가우시안 스플래팅(4DGS)과 함께 생성 모델을 통합하는 데이터 엔진 파이프라인을 제시합니다. 이 파이프라인은 생성 모델의 강력한 일반화 능력과 4DGS가 제공하는 공간 제약을 활용하여 데이터 품질과 다양성을 반복적으로 향상시키며, 효과적으로 시뮬레이션과 실제 간의 간극을 좁히는 데이터 플라이휠 효과를 만들어 냅니다. 마지막으로, 우리의 실험은 체감형 미래 공간 생성 전 사전이 정책 예측 능력을 크게 향상시켜 전반적인 성능을 향상시키는 것을 입증합니다, 특히 장거리 로봇 조작 작업에서.