3DFlowAction: Aprendizaje de Manipulación Multi-Embodiment a partir del Mundo de Flujo 3D
3DFlowAction: Learning Cross-Embodiment Manipulation from 3D Flow World Model
June 6, 2025
Autores: Hongyan Zhi, Peihao Chen, Siyuan Zhou, Yubo Dong, Quanxi Wu, Lei Han, Mingkui Tan
cs.AI
Resumen
La manipulación ha sido durante mucho tiempo una tarea desafiante para los robots, mientras que los humanos pueden realizar interacciones complejas con objetos de manera sencilla, como colgar una taza en el soporte de tazas. Una razón clave es la falta de un conjunto de datos grande y uniforme para enseñar habilidades de manipulación a los robots. Los conjuntos de datos actuales para robots suelen registrar acciones del robot en diferentes espacios de acción dentro de escenas simples. Esto dificulta que el robot aprenda una representación de acción unificada y robusta para diferentes robots en escenas diversas. Al observar cómo los humanos comprenden una tarea de manipulación, descubrimos que entender cómo deben moverse los objetos en el espacio 3D es una pista crítica para guiar las acciones. Esta pista es independiente de la forma física y es adecuada tanto para humanos como para diferentes robots. Motivados por esto, nuestro objetivo es aprender un modelo de mundo de flujo 3D a partir de datos de manipulación tanto humanos como robóticos. Este modelo predice el movimiento futuro de los objetos que interactúan en el espacio 3D, guiando la planificación de acciones para la manipulación. Específicamente, sintetizamos un conjunto de datos a gran escala de flujo óptico 3D, llamado ManiFlow-110k, mediante una canalización de detección automática de objetos en movimiento. Un modelo de mundo basado en difusión de video aprende la física de la manipulación a partir de estos datos, generando trayectorias de flujo óptico 3D condicionadas por instrucciones de lenguaje. Con el flujo óptico 3D generado, proponemos un mecanismo de renderizado guiado por flujo, que renderiza el estado final predicho y aprovecha GPT-4o para evaluar si el flujo predicho se alinea con la descripción de la tarea. Esto equipa al robot con una capacidad de planificación en bucle cerrado. Finalmente, consideramos el flujo óptico 3D predicho como restricciones para una política de optimización que determina un conjunto de acciones del robot para la manipulación. Experimentos extensos demuestran una fuerte generalización en diversas tareas de manipulación robótica y una adaptación confiable entre diferentes formas físicas sin entrenamiento específico para hardware.
English
Manipulation has long been a challenging task for robots, while humans can
effortlessly perform complex interactions with objects, such as hanging a cup
on the mug rack. A key reason is the lack of a large and uniform dataset for
teaching robots manipulation skills. Current robot datasets often record robot
action in different action spaces within a simple scene. This hinders the robot
to learn a unified and robust action representation for different robots within
diverse scenes. Observing how humans understand a manipulation task, we find
that understanding how the objects should move in the 3D space is a critical
clue for guiding actions. This clue is embodiment-agnostic and suitable for
both humans and different robots. Motivated by this, we aim to learn a 3D flow
world model from both human and robot manipulation data. This model predicts
the future movement of the interacting objects in 3D space, guiding action
planning for manipulation. Specifically, we synthesize a large-scale 3D optical
flow dataset, named ManiFlow-110k, through a moving object auto-detect
pipeline. A video diffusion-based world model then learns manipulation physics
from these data, generating 3D optical flow trajectories conditioned on
language instructions. With the generated 3D object optical flow, we propose a
flow-guided rendering mechanism, which renders the predicted final state and
leverages GPT-4o to assess whether the predicted flow aligns with the task
description. This equips the robot with a closed-loop planning ability.
Finally, we consider the predicted 3D optical flow as constraints for an
optimization policy to determine a chunk of robot actions for manipulation.
Extensive experiments demonstrate strong generalization across diverse robotic
manipulation tasks and reliable cross-embodiment adaptation without
hardware-specific training.