3DFlowAction : Apprentissage de la manipulation inter-embodiment à partir d'un modèle de monde de flux 3D
3DFlowAction: Learning Cross-Embodiment Manipulation from 3D Flow World Model
June 6, 2025
Auteurs: Hongyan Zhi, Peihao Chen, Siyuan Zhou, Yubo Dong, Quanxi Wu, Lei Han, Mingkui Tan
cs.AI
Résumé
La manipulation a longtemps été une tâche complexe pour les robots, alors que les humains peuvent effectuer sans effort des interactions complexes avec des objets, comme accrocher une tasse sur un porte-mug. Une raison clé est l'absence d'un ensemble de données vaste et uniforme pour enseigner les compétences de manipulation aux robots. Les ensembles de données robotiques actuels enregistrent souvent les actions des robots dans différents espaces d'action au sein d'une scène simple. Cela empêche le robot d'apprendre une représentation d'action unifiée et robuste pour différents robots dans des scènes variées. En observant comment les humains comprennent une tâche de manipulation, nous constatons que comprendre comment les objets doivent se déplacer dans l'espace 3D est un indice crucial pour guider les actions. Cet indice est indépendant de l'incarnation et convient à la fois aux humains et à différents robots. Motivés par cela, nous visons à apprendre un modèle de monde de flux 3D à partir de données de manipulation humaines et robotiques. Ce modèle prédit le mouvement futur des objets en interaction dans l'espace 3D, guidant la planification des actions pour la manipulation. Plus précisément, nous synthétisons un ensemble de données de flux optique 3D à grande échelle, nommé ManiFlow-110k, via un pipeline de détection automatique d'objets en mouvement. Un modèle de monde basé sur la diffusion vidéo apprend ensuite la physique de la manipulation à partir de ces données, générant des trajectoires de flux optique 3D conditionnées par des instructions linguistiques. Avec le flux optique 3D généré, nous proposons un mécanisme de rendu guidé par le flux, qui rend l'état final prédit et utilise GPT-4o pour évaluer si le flux prédit correspond à la description de la tâche. Cela équipe le robot d'une capacité de planification en boucle fermée. Enfin, nous considérons le flux optique 3D prédit comme des contraintes pour une politique d'optimisation afin de déterminer une série d'actions robotiques pour la manipulation. Des expériences approfondies démontrent une forte généralisation à travers diverses tâches de manipulation robotique et une adaptation fiable entre différentes incarnations sans entraînement spécifique au matériel.
English
Manipulation has long been a challenging task for robots, while humans can
effortlessly perform complex interactions with objects, such as hanging a cup
on the mug rack. A key reason is the lack of a large and uniform dataset for
teaching robots manipulation skills. Current robot datasets often record robot
action in different action spaces within a simple scene. This hinders the robot
to learn a unified and robust action representation for different robots within
diverse scenes. Observing how humans understand a manipulation task, we find
that understanding how the objects should move in the 3D space is a critical
clue for guiding actions. This clue is embodiment-agnostic and suitable for
both humans and different robots. Motivated by this, we aim to learn a 3D flow
world model from both human and robot manipulation data. This model predicts
the future movement of the interacting objects in 3D space, guiding action
planning for manipulation. Specifically, we synthesize a large-scale 3D optical
flow dataset, named ManiFlow-110k, through a moving object auto-detect
pipeline. A video diffusion-based world model then learns manipulation physics
from these data, generating 3D optical flow trajectories conditioned on
language instructions. With the generated 3D object optical flow, we propose a
flow-guided rendering mechanism, which renders the predicted final state and
leverages GPT-4o to assess whether the predicted flow aligns with the task
description. This equips the robot with a closed-loop planning ability.
Finally, we consider the predicted 3D optical flow as constraints for an
optimization policy to determine a chunk of robot actions for manipulation.
Extensive experiments demonstrate strong generalization across diverse robotic
manipulation tasks and reliable cross-embodiment adaptation without
hardware-specific training.