3DFlowAction: Обучение манипуляциям с учетом различных воплощений на основе 3D-потоковой модели мира
3DFlowAction: Learning Cross-Embodiment Manipulation from 3D Flow World Model
June 6, 2025
Авторы: Hongyan Zhi, Peihao Chen, Siyuan Zhou, Yubo Dong, Quanxi Wu, Lei Han, Mingkui Tan
cs.AI
Аннотация
Манипуляции долгое время оставались сложной задачей для роботов, в то время как люди могут с легкостью выполнять сложные взаимодействия с объектами, например, вешать чашку на подставку. Одной из ключевых причин является отсутствие крупного и унифицированного набора данных для обучения роботов навыкам манипуляции. Современные наборы данных для роботов часто фиксируют действия роботов в различных пространствах действий в рамках простых сцен. Это препятствует обучению роботов единому и устойчивому представлению действий для разных роботов в разнообразных сценах. Наблюдая за тем, как люди понимают задачу манипуляции, мы обнаружили, что понимание того, как объекты должны двигаться в трехмерном пространстве, является ключевым элементом для руководства действиями. Этот элемент не зависит от конкретного воплощения и подходит как для людей, так и для различных роботов. Вдохновленные этим, мы стремимся обучить модель мира, основанную на трехмерных потоках, используя данные манипуляций как людей, так и роботов. Эта модель предсказывает будущее движение взаимодействующих объектов в трехмерном пространстве, направляя планирование действий для манипуляции. В частности, мы синтезируем крупномасштабный набор данных трехмерного оптического потока, названный ManiFlow-110k, с помощью автоматического конвейера обнаружения движущихся объектов. Затем модель мира, основанная на диффузии видео, обучается физике манипуляции на этих данных, генерируя траектории трехмерного оптического потока, обусловленные языковыми инструкциями. С использованием сгенерированного трехмерного оптического потока объектов мы предлагаем механизм рендеринга, направляемый потоком, который визуализирует предсказанное конечное состояние и использует GPT-4o для оценки того, соответствует ли предсказанный поток описанию задачи. Это наделяет робота способностью к замкнутому планированию. Наконец, мы рассматриваем предсказанный трехмерный оптический поток как ограничения для оптимизационной политики, определяющей последовательность действий робота для манипуляции. Многочисленные эксперименты демонстрируют сильную обобщаемость для разнообразных задач роботизированной манипуляции и надежную адаптацию между различными воплощениями без обучения, специфичного для конкретного оборудования.
English
Manipulation has long been a challenging task for robots, while humans can
effortlessly perform complex interactions with objects, such as hanging a cup
on the mug rack. A key reason is the lack of a large and uniform dataset for
teaching robots manipulation skills. Current robot datasets often record robot
action in different action spaces within a simple scene. This hinders the robot
to learn a unified and robust action representation for different robots within
diverse scenes. Observing how humans understand a manipulation task, we find
that understanding how the objects should move in the 3D space is a critical
clue for guiding actions. This clue is embodiment-agnostic and suitable for
both humans and different robots. Motivated by this, we aim to learn a 3D flow
world model from both human and robot manipulation data. This model predicts
the future movement of the interacting objects in 3D space, guiding action
planning for manipulation. Specifically, we synthesize a large-scale 3D optical
flow dataset, named ManiFlow-110k, through a moving object auto-detect
pipeline. A video diffusion-based world model then learns manipulation physics
from these data, generating 3D optical flow trajectories conditioned on
language instructions. With the generated 3D object optical flow, we propose a
flow-guided rendering mechanism, which renders the predicted final state and
leverages GPT-4o to assess whether the predicted flow aligns with the task
description. This equips the robot with a closed-loop planning ability.
Finally, we consider the predicted 3D optical flow as constraints for an
optimization policy to determine a chunk of robot actions for manipulation.
Extensive experiments demonstrate strong generalization across diverse robotic
manipulation tasks and reliable cross-embodiment adaptation without
hardware-specific training.