3DFlowAction: Erlernen von manipulationsfähigen Fähigkeiten über verschiedene Embodiments in der 3D-Flow-Welt
3DFlowAction: Learning Cross-Embodiment Manipulation from 3D Flow World Model
June 6, 2025
Autoren: Hongyan Zhi, Peihao Chen, Siyuan Zhou, Yubo Dong, Quanxi Wu, Lei Han, Mingkui Tan
cs.AI
Zusammenfassung
Manipulation stellt seit langem eine Herausforderung für Roboter dar, während Menschen mühelos komplexe Interaktionen mit Objekten ausführen können, wie beispielsweise das Aufhängen einer Tasse an der Tassenablage. Ein wesentlicher Grund hierfür ist das Fehlen eines umfangreichen und einheitlichen Datensatzes, um Robotern Manipulationsfähigkeiten beizubringen. Aktuelle Roboterdatensätze erfassen oft Roboteraktionen in verschiedenen Aktionsräumen innerhalb einer einfachen Szene. Dies behindert die Fähigkeit des Roboters, eine einheitliche und robuste Aktionsrepräsentation für verschiedene Roboter in unterschiedlichen Szenen zu erlernen. Wenn wir beobachten, wie Menschen eine Manipulationsaufgabe verstehen, stellen wir fest, dass das Verständnis dafür, wie sich Objekte im 3D-Raum bewegen sollten, ein entscheidender Hinweis für die Steuerung von Aktionen ist. Dieser Hinweis ist körperunabhängig und sowohl für Menschen als auch für verschiedene Roboter geeignet. Motiviert durch diese Erkenntnis, streben wir an, ein 3D-Flow-Weltmodell sowohl aus menschlichen als auch aus roboterbasierten Manipulationsdaten zu erlernen. Dieses Modell sagt die zukünftige Bewegung der interagierenden Objekte im 3D-Raum voraus und leitet die Aktionsplanung für die Manipulation. Konkret synthetisieren wir einen groß angelegten 3D-Optical-Flow-Datensatz, genannt ManiFlow-110k, durch eine Pipeline zur automatischen Erkennung bewegter Objekte. Ein videodiffusionsbasiertes Weltmodell lernt dann die Physik der Manipulation aus diesen Daten und generiert 3D-Optical-Flow-Trajektorien, die auf Sprachanweisungen basieren. Mit dem generierten 3D-Objekt-Optical-Flow schlagen wir einen flow-gesteuerten Rendering-Mechanismus vor, der den vorhergesagten Endzustand rendert und GPT-4o nutzt, um zu bewerten, ob der vorhergesagte Flow mit der Aufgabenbeschreibung übereinstimmt. Dies stattet den Roboter mit einer geschlossenen Planungsfähigkeit aus. Schließlich betrachten wir den vorhergesagten 3D-Optical-Flow als Einschränkungen für eine Optimierungsstrategie, um eine Reihe von Roboteraktionen für die Manipulation zu bestimmen. Umfangreiche Experimente zeigen eine starke Generalisierung über verschiedene robotische Manipulationsaufgaben hinweg und eine zuverlässige körperübergreifende Anpassung ohne hardware-spezifisches Training.
English
Manipulation has long been a challenging task for robots, while humans can
effortlessly perform complex interactions with objects, such as hanging a cup
on the mug rack. A key reason is the lack of a large and uniform dataset for
teaching robots manipulation skills. Current robot datasets often record robot
action in different action spaces within a simple scene. This hinders the robot
to learn a unified and robust action representation for different robots within
diverse scenes. Observing how humans understand a manipulation task, we find
that understanding how the objects should move in the 3D space is a critical
clue for guiding actions. This clue is embodiment-agnostic and suitable for
both humans and different robots. Motivated by this, we aim to learn a 3D flow
world model from both human and robot manipulation data. This model predicts
the future movement of the interacting objects in 3D space, guiding action
planning for manipulation. Specifically, we synthesize a large-scale 3D optical
flow dataset, named ManiFlow-110k, through a moving object auto-detect
pipeline. A video diffusion-based world model then learns manipulation physics
from these data, generating 3D optical flow trajectories conditioned on
language instructions. With the generated 3D object optical flow, we propose a
flow-guided rendering mechanism, which renders the predicted final state and
leverages GPT-4o to assess whether the predicted flow aligns with the task
description. This equips the robot with a closed-loop planning ability.
Finally, we consider the predicted 3D optical flow as constraints for an
optimization policy to determine a chunk of robot actions for manipulation.
Extensive experiments demonstrate strong generalization across diverse robotic
manipulation tasks and reliable cross-embodiment adaptation without
hardware-specific training.