EnerVerse: ロボティクス操作のための具現化された未来空間を構想するEnerVerse: Envisioning Embodied Future Space for Robotics Manipulation
EnerVerseは、ロボット操作タスクに特化した未来の空間生成の包括的なフレームワークを紹介します。EnerVerseは、内部チャンク空間モデリングのために畳み込みと双方向注意メカニズムをシームレスに統合し、低レベルの一貫性と連続性を確保します。ビデオデータに固有の冗長性を認識し、無限に長いシーケンスの生成を可能にするために、我々はスパースメモリコンテキストとチャンク単位の一方向生成パラダイムを提案します。さらに、ロボットの能力を向上させるために、柔軟な視点を提供するFree Anchor View(FAV)空間を導入します。FAV空間は、動きのモデリングの曖昧さを軽減し、閉所環境での物理的制約を取り除き、ロボットの汎化能力と適応性を著しく向上させます。複数のカメラ観測を取得するコストと労力の問題に対処するために、4次元ガウススプラッティング(4DGS)と組み合わせた生成モデルを統合したデータエンジンパイプラインを提案します。このパイプラインは、生成モデルの堅牢な汎化能力と4DGSによって提供される空間制約を活用し、データ品質と多様性の継続的な向上を可能にし、それによってシミュレーションと実際の間のギャップを効果的に狭めるデータフライホイール効果を生み出します。最後に、我々の実験は、未来の空間生成事前処理が方策予測能力を大幅に向上させ、特に長距離のロボット操作タスクにおいて全体的なパフォーマンスを向上させることを示しています。