3DFlowAction: Leren van manipulatie tussen verschillende embodimenten vanuit de 3D Flow-wereld Model
3DFlowAction: Learning Cross-Embodiment Manipulation from 3D Flow World Model
June 6, 2025
Auteurs: Hongyan Zhi, Peihao Chen, Siyuan Zhou, Yubo Dong, Quanxi Wu, Lei Han, Mingkui Tan
cs.AI
Samenvatting
Manipulatie is al lang een uitdagende taak voor robots, terwijl mensen moeiteloos complexe interacties met objecten kunnen uitvoeren, zoals het ophangen van een kopje aan de bekerhouder. Een belangrijke reden hiervoor is het ontbreken van een grote en uniforme dataset voor het aanleren van manipulatietechnieken aan robots. Huidige robotdatasets registreren vaak robotacties in verschillende actieruimtes binnen een eenvoudige scène. Dit belemmert het vermogen van de robot om een uniforme en robuuste actierepresentatie te leren voor verschillende robots in diverse scènes. Door te observeren hoe mensen een manipulatietaak begrijpen, ontdekken we dat het begrijpen van hoe objecten in de 3D-ruimte moeten bewegen een cruciaal aanknopingspunt is voor het sturen van acties. Dit aanknopingspunt is onafhankelijk van de belichaming en geschikt voor zowel mensen als verschillende robots. Gemotiveerd door dit inzicht, streven we ernaar een 3D-stroomwereldmodel te leren van zowel menselijke als robotmanipulatiedata. Dit model voorspelt de toekomstige beweging van de interagerende objecten in de 3D-ruimte, wat de actieplanning voor manipulatie begeleidt. Specifiek synthetiseren we een grootschalige 3D-optische stroomdataset, genaamd ManiFlow-110k, via een pijplijn voor automatische detectie van bewegende objecten. Een op videodiffusie gebaseerd wereldmodel leert vervolgens de fysica van manipulatie uit deze data, waarbij het 3D-optische stroomtrajecten genereert die zijn geconditioneerd op taalinstellingen. Met de gegenereerde 3D-objectoptische stroom stellen we een stroomgestuurd renderingsmechanisme voor, dat de voorspelde eindtoestand weergeeft en GPT-4o gebruikt om te beoordelen of de voorspelde stroom overeenkomt met de taakbeschrijving. Dit voorziet de robot van een gesloten-lusplanningvermogen. Ten slotte beschouwen we de voorspelde 3D-optische stroom als beperkingen voor een optimalisatiebeleid om een reeks robotacties voor manipulatie te bepalen. Uitgebreide experimenten tonen een sterke generalisatie aan over diverse robotmanipulatietaken en betrouwbare cross-embodiment-aanpassing zonder hardware-specifieke training.
English
Manipulation has long been a challenging task for robots, while humans can
effortlessly perform complex interactions with objects, such as hanging a cup
on the mug rack. A key reason is the lack of a large and uniform dataset for
teaching robots manipulation skills. Current robot datasets often record robot
action in different action spaces within a simple scene. This hinders the robot
to learn a unified and robust action representation for different robots within
diverse scenes. Observing how humans understand a manipulation task, we find
that understanding how the objects should move in the 3D space is a critical
clue for guiding actions. This clue is embodiment-agnostic and suitable for
both humans and different robots. Motivated by this, we aim to learn a 3D flow
world model from both human and robot manipulation data. This model predicts
the future movement of the interacting objects in 3D space, guiding action
planning for manipulation. Specifically, we synthesize a large-scale 3D optical
flow dataset, named ManiFlow-110k, through a moving object auto-detect
pipeline. A video diffusion-based world model then learns manipulation physics
from these data, generating 3D optical flow trajectories conditioned on
language instructions. With the generated 3D object optical flow, we propose a
flow-guided rendering mechanism, which renders the predicted final state and
leverages GPT-4o to assess whether the predicted flow aligns with the task
description. This equips the robot with a closed-loop planning ability.
Finally, we consider the predicted 3D optical flow as constraints for an
optimization policy to determine a chunk of robot actions for manipulation.
Extensive experiments demonstrate strong generalization across diverse robotic
manipulation tasks and reliable cross-embodiment adaptation without
hardware-specific training.