能量宇宙:构想机器人操作的具象未来空间EnerVerse: Envisioning Embodied Future Space for Robotics Manipulation
我们介绍了EnerVerse,这是一个专为机器人操作任务设计的全面框架,用于实体化未来空间生成。EnerVerse 无缝集成了卷积和双向注意机制,用于内部区块空间建模,确保低层次的一致性和连续性。鉴于视频数据中固有的冗余性,我们提出了稀疏记忆上下文,结合区块式单向生成范式,实现无限长序列的生成。为了进一步增强机器人的能力,我们引入了自由锚定视图(FAV)空间,提供灵活的视角以增强观察和分析。FAV 空间减轻了运动建模的模糊性,在受限环境中消除了物理约束,并显著提高了机器人在各种任务和环境中的泛化和适应能力。为了解决获取多摄像头观察的成本和劳动强度过高的问题,我们提出了一个数据引擎管道,将生成模型与四维高斯飞溅(4DGS)相结合。该管道利用生成模型的强大泛化能力和 4DGS 提供的空间约束,实现数据质量和多样性的迭代增强,从而创造出一种数据飞轮效应,有效缩小模拟与真实之间的差距。最后,我们的实验表明,实体化未来空间生成先验显著增强了策略预测能力,从而提高了整体性能,特别是在长距离机器人操作任务中。