EnerVerse: Visualizando un Espacio Futuro Incorporado para la Manipulación RobóticaEnerVerse: Envisioning Embodied Future Space for Robotics Manipulation
Presentamos EnerVerse, un marco integral para la generación de espacios futuros encarnados diseñado específicamente para tareas de manipulación robótica. EnerVerse integra de manera fluida mecanismos de atención convolucional y bidireccional para el modelado del espacio interno por fragmentos, asegurando consistencia y continuidad a nivel bajo. Reconociendo la redundancia inherente en los datos de video, proponemos un contexto de memoria dispersa combinado con un paradigma generativo unidireccional por fragmentos para permitir la generación de secuencias infinitamente largas. Para aumentar aún más las capacidades robóticas, introducimos el espacio de Vista de Anclaje Libre (FAV), que proporciona perspectivas flexibles para mejorar la observación y el análisis. El espacio FAV mitiga la ambigüedad en el modelado del movimiento, elimina las restricciones físicas en entornos confinados y mejora significativamente la generalización y adaptabilidad del robot en diversas tareas y entornos. Para abordar los costos prohibitivos y la intensidad laboral de adquirir observaciones de múltiples cámaras, presentamos un canal de datos que integra un modelo generativo con Splatting Gaussiano 4D (4DGS). Este canal aprovecha las sólidas capacidades de generalización del modelo generativo y las restricciones espaciales proporcionadas por 4DGS, permitiendo una mejora iterativa de la calidad y diversidad de los datos, creando así un efecto de retroalimentación de datos que estrecha efectivamente la brecha entre simulación y realidad. Finalmente, nuestros experimentos demuestran que la generación de espacios futuros encarnados mejora sustancialmente las capacidades predictivas de políticas, lo que resulta en un mejor rendimiento general, especialmente en tareas de manipulación robótica a larga distancia.