3DFlowAction: Apprendimento della manipolazione cross-embodiment dal mondo dei flussi 3D
3DFlowAction: Learning Cross-Embodiment Manipulation from 3D Flow World Model
June 6, 2025
Autori: Hongyan Zhi, Peihao Chen, Siyuan Zhou, Yubo Dong, Quanxi Wu, Lei Han, Mingkui Tan
cs.AI
Abstract
La manipolazione è da tempo un compito impegnativo per i robot, mentre gli esseri umani possono eseguire con facilità interazioni complesse con gli oggetti, come appendere una tazza sulla rastrelliera. Una ragione fondamentale è la mancanza di un dataset ampio e uniforme per insegnare ai robot le abilità di manipolazione. Gli attuali dataset robotici spesso registrano le azioni del robot in diversi spazi d'azione all'interno di una scena semplice. Ciò impedisce al robot di apprendere una rappresentazione d'azione unificata e robusta per diversi robot in scenari vari. Osservando come gli esseri umani comprendono un compito di manipolazione, notiamo che comprendere come gli oggetti dovrebbero muoversi nello spazio 3D è un indizio cruciale per guidare le azioni. Questo indizio è indipendente dall'incarnazione e adatto sia agli esseri umani che a diversi robot. Motivati da ciò, miriamo a imparare un modello di mondo del flusso 3D sia dai dati di manipolazione umana che robotica. Questo modello prevede il movimento futuro degli oggetti interagenti nello spazio 3D, guidando la pianificazione delle azioni per la manipolazione. Nello specifico, sintetizziamo un dataset su larga scala di flusso ottico 3D, denominato ManiFlow-110k, attraverso una pipeline di rilevamento automatico di oggetti in movimento. Un modello di mondo basato sulla diffusione video apprende quindi la fisica della manipolazione da questi dati, generando traiettorie di flusso ottico 3D condizionate da istruzioni linguistiche. Con il flusso ottico 3D generato, proponiamo un meccanismo di rendering guidato dal flusso, che rende lo stato finale previsto e utilizza GPT-4o per valutare se il flusso previsto è allineato con la descrizione del compito. Ciò fornisce al robot un'abilità di pianificazione a ciclo chiuso. Infine, consideriamo il flusso ottico 3D previsto come vincoli per una politica di ottimizzazione per determinare una serie di azioni del robot per la manipolazione. Esperimenti estensivi dimostrano una forte generalizzazione attraverso diversi compiti di manipolazione robotica e un adattamento affidabile tra diverse incarnazioni senza addestramento specifico per l'hardware.
English
Manipulation has long been a challenging task for robots, while humans can
effortlessly perform complex interactions with objects, such as hanging a cup
on the mug rack. A key reason is the lack of a large and uniform dataset for
teaching robots manipulation skills. Current robot datasets often record robot
action in different action spaces within a simple scene. This hinders the robot
to learn a unified and robust action representation for different robots within
diverse scenes. Observing how humans understand a manipulation task, we find
that understanding how the objects should move in the 3D space is a critical
clue for guiding actions. This clue is embodiment-agnostic and suitable for
both humans and different robots. Motivated by this, we aim to learn a 3D flow
world model from both human and robot manipulation data. This model predicts
the future movement of the interacting objects in 3D space, guiding action
planning for manipulation. Specifically, we synthesize a large-scale 3D optical
flow dataset, named ManiFlow-110k, through a moving object auto-detect
pipeline. A video diffusion-based world model then learns manipulation physics
from these data, generating 3D optical flow trajectories conditioned on
language instructions. With the generated 3D object optical flow, we propose a
flow-guided rendering mechanism, which renders the predicted final state and
leverages GPT-4o to assess whether the predicted flow aligns with the task
description. This equips the robot with a closed-loop planning ability.
Finally, we consider the predicted 3D optical flow as constraints for an
optimization policy to determine a chunk of robot actions for manipulation.
Extensive experiments demonstrate strong generalization across diverse robotic
manipulation tasks and reliable cross-embodiment adaptation without
hardware-specific training.