ЭнерВселенная: Визуализация Воплощенного Будущего Пространства для Робототехнического Управления
EnerVerse: Envisioning Embodied Future Space for Robotics Manipulation
January 3, 2025
Авторы: Siyuan Huang, Liliang Chen, Pengfei Zhou, Shengcong Chen, Zhengkai Jiang, Yue Hu, Peng Gao, Hongsheng Li, Maoqing Yao, Guanghui Ren
cs.AI
Аннотация
Мы представляем EnerVerse - комплексную платформу для создания воплощенного будущего пространства, специально разработанную для задач робототехники. EnerVerse плавно интегрирует механизмы свертки и двунаправленного внимания для моделирования пространства внутри блока, обеспечивая согласованность и непрерывность на низком уровне. Учитывая врожденную избыточность видеоданных, мы предлагаем разреженный контекст памяти в сочетании с частично однонаправленной генеративной парадигмой для возможности генерации бесконечных последовательностей. Для дополнительного расширения возможностей роботов мы представляем пространство Свободного Анкера Обзора (FAV), которое предоставляет гибкие перспективы для улучшения наблюдения и анализа. Пространство FAV уменьшает неоднозначность моделирования движения, устраняет физические ограничения в ограниченных средах и значительно повышает обобщение и адаптивность робота в различных задачах и средах. Для решения проблематичных затрат и трудоемкости при получении многокамерных наблюдений мы представляем конвейер данных, который интегрирует генеративную модель с 4D Гауссовским Сплетением (4DGS). Этот конвейер использует надежные возможности обобщения генеративной модели и пространственные ограничения, предоставленные 4DGS, обеспечивая итеративное улучшение качества и разнообразия данных, что создает эффект "летучего колеса" данных, эффективно сужая разрыв между симуляцией и реальностью. Наконец, наши эксперименты показывают, что предшествующее создание воплощенного будущего пространства значительно улучшает возможности прогнозирования политики, приводя к улучшению общей производительности, особенно в задачах робототехники на дальние расстояния.
English
We introduce EnerVerse, a comprehensive framework for embodied future space
generation specifically designed for robotic manipulation tasks. EnerVerse
seamlessly integrates convolutional and bidirectional attention mechanisms for
inner-chunk space modeling, ensuring low-level consistency and continuity.
Recognizing the inherent redundancy in video data, we propose a sparse memory
context combined with a chunkwise unidirectional generative paradigm to enable
the generation of infinitely long sequences. To further augment robotic
capabilities, we introduce the Free Anchor View (FAV) space, which provides
flexible perspectives to enhance observation and analysis. The FAV space
mitigates motion modeling ambiguity, removes physical constraints in confined
environments, and significantly improves the robot's generalization and
adaptability across various tasks and settings. To address the prohibitive
costs and labor intensity of acquiring multi-camera observations, we present a
data engine pipeline that integrates a generative model with 4D Gaussian
Splatting (4DGS). This pipeline leverages the generative model's robust
generalization capabilities and the spatial constraints provided by 4DGS,
enabling an iterative enhancement of data quality and diversity, thus creating
a data flywheel effect that effectively narrows the sim-to-real gap. Finally,
our experiments demonstrate that the embodied future space generation prior
substantially enhances policy predictive capabilities, resulting in improved
overall performance, particularly in long-range robotic manipulation tasks.Summary
AI-Generated Summary