3DFlowAction: Aprendizado de Manipulação Trans-Embodiment a partir do Mundo de Fluxo 3D
3DFlowAction: Learning Cross-Embodiment Manipulation from 3D Flow World Model
June 6, 2025
Autores: Hongyan Zhi, Peihao Chen, Siyuan Zhou, Yubo Dong, Quanxi Wu, Lei Han, Mingkui Tan
cs.AI
Resumo
A manipulação tem sido uma tarefa desafiadora para robôs, enquanto os humanos conseguem realizar interações complexas com objetos de forma quase intuitiva, como pendurar uma xícara em um suporte. Uma razão fundamental para isso é a falta de um conjunto de dados grande e uniforme para ensinar habilidades de manipulação a robôs. Os conjuntos de dados atuais para robôs frequentemente registram ações em diferentes espaços de ação dentro de cenas simples. Isso dificulta que o robô aprenda uma representação de ação unificada e robusta para diferentes robôs em cenários diversos. Ao observar como os humanos compreendem uma tarefa de manipulação, percebemos que entender como os objetos devem se mover no espaço 3D é uma pista crítica para guiar as ações. Essa pista é independente da forma física e é adequada tanto para humanos quanto para diferentes robôs. Motivados por isso, buscamos aprender um modelo de mundo de fluxo 3D a partir de dados de manipulação humana e robótica. Esse modelo prevê o movimento futuro dos objetos interagentes no espaço 3D, orientando o planejamento de ações para manipulação. Especificamente, sintetizamos um conjunto de dados em larga escala de fluxo óptico 3D, chamado ManiFlow-110k, por meio de um pipeline de detecção automática de objetos em movimento. Um modelo de mundo baseado em difusão de vídeo então aprende a física da manipulação a partir desses dados, gerando trajetórias de fluxo óptico 3D condicionadas a instruções em linguagem natural. Com o fluxo óptico 3D gerado, propomos um mecanismo de renderização guiada por fluxo, que renderiza o estado final previsto e utiliza o GPT-4o para avaliar se o fluxo previsto está alinhado com a descrição da tarefa. Isso equipa o robô com uma capacidade de planejamento em loop fechado. Por fim, consideramos o fluxo óptico 3D previsto como restrições para uma política de otimização, determinando um conjunto de ações robóticas para manipulação. Experimentos extensivos demonstram uma forte generalização em diversas tarefas de manipulação robótica e uma adaptação confiável entre diferentes formas físicas sem treinamento específico para hardware.
English
Manipulation has long been a challenging task for robots, while humans can
effortlessly perform complex interactions with objects, such as hanging a cup
on the mug rack. A key reason is the lack of a large and uniform dataset for
teaching robots manipulation skills. Current robot datasets often record robot
action in different action spaces within a simple scene. This hinders the robot
to learn a unified and robust action representation for different robots within
diverse scenes. Observing how humans understand a manipulation task, we find
that understanding how the objects should move in the 3D space is a critical
clue for guiding actions. This clue is embodiment-agnostic and suitable for
both humans and different robots. Motivated by this, we aim to learn a 3D flow
world model from both human and robot manipulation data. This model predicts
the future movement of the interacting objects in 3D space, guiding action
planning for manipulation. Specifically, we synthesize a large-scale 3D optical
flow dataset, named ManiFlow-110k, through a moving object auto-detect
pipeline. A video diffusion-based world model then learns manipulation physics
from these data, generating 3D optical flow trajectories conditioned on
language instructions. With the generated 3D object optical flow, we propose a
flow-guided rendering mechanism, which renders the predicted final state and
leverages GPT-4o to assess whether the predicted flow aligns with the task
description. This equips the robot with a closed-loop planning ability.
Finally, we consider the predicted 3D optical flow as constraints for an
optimization policy to determine a chunk of robot actions for manipulation.
Extensive experiments demonstrate strong generalization across diverse robotic
manipulation tasks and reliable cross-embodiment adaptation without
hardware-specific training.