EnerVerse: Vision einer verkörperten zukünftigen Raumgestaltung für die Robotik-Manipulation

papers.abstract

Wir stellen EnerVerse vor, ein umfassendes Framework für die verkörperte zukünftige Raumgenerierung, das speziell für robotergestützte Manipulationstätigkeiten entwickelt wurde. EnerVerse integriert nahtlos Faltungs- und bidirektionale Aufmerksamkeitsmechanismen für die Modellierung des inneren Raumteils, um eine konsistente und kontinuierliche Darstellung auf niedriger Ebene sicherzustellen. Da wir die inhärente Redundanz in Videodaten erkennen, schlagen wir einen spärlichen Speicherkontext in Kombination mit einem stückweisen unidirektionalen generativen Paradigma vor, um die Generierung unendlich langer Sequenzen zu ermöglichen. Um die robotergestützten Fähigkeiten weiter zu verbessern, führen wir den Free Anchor View (FAV) Raum ein, der flexible Perspektiven bietet, um Beobachtung und Analyse zu verbessern. Der FAV-Raum reduziert Modellierungsambiguität bei Bewegungen, beseitigt physische Einschränkungen in begrenzten Umgebungen und verbessert signifikant die Generalisierung und Anpassungsfähigkeit des Roboters über verschiedene Aufgaben und Umgebungen hinweg. Um den hohen Kosten und dem Arbeitsaufwand bei der Beschaffung von Mehrkamera-Beobachtungen entgegenzuwirken, präsentieren wir eine Datenmotor-Pipeline, die ein generatives Modell mit 4D-Gauß-Splatting (4DGS) integriert. Diese Pipeline nutzt die robusten Generalisierungsfähigkeiten des generativen Modells und die räumlichen Einschränkungen, die 4DGS bietet, um eine iterative Verbesserung der Datenqualität und -vielfalt zu ermöglichen. Dadurch entsteht ein Datenfließrad-Effekt, der den Sim-zu-Real-Unterschied effektiv verringert. Schließlich zeigen unsere Experimente, dass die verkörperte zukünftige Raumgenerierung erheblich die Vorhersagefähigkeiten der Richtlinien verbessert, was zu einer insgesamt besseren Leistung führt, insbesondere bei robotergestützten Manipulationstätigkeiten über große Entfernungen.

English

We introduce EnerVerse, a comprehensive framework for embodied future space generation specifically designed for robotic manipulation tasks. EnerVerse seamlessly integrates convolutional and bidirectional attention mechanisms for inner-chunk space modeling, ensuring low-level consistency and continuity. Recognizing the inherent redundancy in video data, we propose a sparse memory context combined with a chunkwise unidirectional generative paradigm to enable the generation of infinitely long sequences. To further augment robotic capabilities, we introduce the Free Anchor View (FAV) space, which provides flexible perspectives to enhance observation and analysis. The FAV space mitigates motion modeling ambiguity, removes physical constraints in confined environments, and significantly improves the robot's generalization and adaptability across various tasks and settings. To address the prohibitive costs and labor intensity of acquiring multi-camera observations, we present a data engine pipeline that integrates a generative model with 4D Gaussian Splatting (4DGS). This pipeline leverages the generative model's robust generalization capabilities and the spatial constraints provided by 4DGS, enabling an iterative enhancement of data quality and diversity, thus creating a data flywheel effect that effectively narrows the sim-to-real gap. Finally, our experiments demonstrate that the embodied future space generation prior substantially enhances policy predictive capabilities, resulting in improved overall performance, particularly in long-range robotic manipulation tasks.

EnerVerse: Vision einer verkörperten zukünftigen Raumgestaltung für die Robotik-Manipulation

EnerVerse: Envisioning Embodied Future Space for Robotics Manipulation

papers.abstract

Support