EnerVerse: Vision einer verkörperten zukünftigen Raumgestaltung für die Robotik-ManipulationEnerVerse: Envisioning Embodied Future Space for Robotics Manipulation
Wir stellen EnerVerse vor, ein umfassendes Framework für die verkörperte zukünftige Raumgenerierung, das speziell für robotergestützte Manipulationstätigkeiten entwickelt wurde. EnerVerse integriert nahtlos Faltungs- und bidirektionale Aufmerksamkeitsmechanismen für die Modellierung des inneren Raumteils, um eine konsistente und kontinuierliche Darstellung auf niedriger Ebene sicherzustellen. Da wir die inhärente Redundanz in Videodaten erkennen, schlagen wir einen spärlichen Speicherkontext in Kombination mit einem stückweisen unidirektionalen generativen Paradigma vor, um die Generierung unendlich langer Sequenzen zu ermöglichen. Um die robotergestützten Fähigkeiten weiter zu verbessern, führen wir den Free Anchor View (FAV) Raum ein, der flexible Perspektiven bietet, um Beobachtung und Analyse zu verbessern. Der FAV-Raum reduziert Modellierungsambiguität bei Bewegungen, beseitigt physische Einschränkungen in begrenzten Umgebungen und verbessert signifikant die Generalisierung und Anpassungsfähigkeit des Roboters über verschiedene Aufgaben und Umgebungen hinweg. Um den hohen Kosten und dem Arbeitsaufwand bei der Beschaffung von Mehrkamera-Beobachtungen entgegenzuwirken, präsentieren wir eine Datenmotor-Pipeline, die ein generatives Modell mit 4D-Gauß-Splatting (4DGS) integriert. Diese Pipeline nutzt die robusten Generalisierungsfähigkeiten des generativen Modells und die räumlichen Einschränkungen, die 4DGS bietet, um eine iterative Verbesserung der Datenqualität und -vielfalt zu ermöglichen. Dadurch entsteht ein Datenfließrad-Effekt, der den Sim-zu-Real-Unterschied effektiv verringert. Schließlich zeigen unsere Experimente, dass die verkörperte zukünftige Raumgenerierung erheblich die Vorhersagefähigkeiten der Richtlinien verbessert, was zu einer insgesamt besseren Leistung führt, insbesondere bei robotergestützten Manipulationstätigkeiten über große Entfernungen.