Обучение генерации видео для роботизированного манипулирования с совместным управлением траекториями
Learning Video Generation for Robotic Manipulation with Collaborative Trajectory Control
June 2, 2025
Авторы: Xiao Fu, Xintao Wang, Xian Liu, Jianhong Bai, Runsen Xu, Pengfei Wan, Di Zhang, Dahua Lin
cs.AI
Аннотация
Последние достижения в области моделей диффузии видео продемонстрировали значительный потенциал для генерации данных, используемых в принятии решений роботами, при этом условия траекторий обеспечивают более детализированный контроль. Однако существующие методы, основанные на траекториях, в основном сосредоточены на движении отдельных объектов и испытывают трудности с захватом взаимодействия нескольких объектов, что имеет решающее значение в сложных манипуляциях роботов. Это ограничение возникает из-за переплетения множества признаков в перекрывающихся областях, что приводит к снижению визуальной точности. Для решения этой проблемы мы представляем RoboMaster, новый фреймворк, который моделирует динамику взаимодействия объектов через совместную формулировку траекторий. В отличие от предыдущих методов, которые декомпозируют объекты, наша основная идея заключается в декомпозиции процесса взаимодействия на три подэтапа: предварительное взаимодействие, взаимодействие и последующее взаимодействие. Каждый этап моделируется с использованием признаков доминирующего объекта, а именно манипулятора робота на этапах предварительного и последующего взаимодействия и управляемого объекта во время взаимодействия, что позволяет устранить недостаток слияния признаков нескольких объектов, присутствующий в предыдущих работах. Для дальнейшего обеспечения семантической согласованности объектов на протяжении всего видео мы включаем латентные представления, учитывающие внешний вид и форму объектов. Многочисленные эксперименты на сложном наборе данных Bridge V2, а также оценки в реальных условиях демонстрируют, что наш метод превосходит существующие подходы, устанавливая новый уровень производительности в генерации видео с управлением траекториями для манипуляций роботов.
English
Recent advances in video diffusion models have demonstrated strong potential
for generating robotic decision-making data, with trajectory conditions further
enabling fine-grained control. However, existing trajectory-based methods
primarily focus on individual object motion and struggle to capture
multi-object interaction crucial in complex robotic manipulation. This
limitation arises from multi-feature entanglement in overlapping regions, which
leads to degraded visual fidelity. To address this, we present RoboMaster, a
novel framework that models inter-object dynamics through a collaborative
trajectory formulation. Unlike prior methods that decompose objects, our core
is to decompose the interaction process into three sub-stages: pre-interaction,
interaction, and post-interaction. Each stage is modeled using the feature of
the dominant object, specifically the robotic arm in the pre- and
post-interaction phases and the manipulated object during interaction, thereby
mitigating the drawback of multi-object feature fusion present during
interaction in prior work. To further ensure subject semantic consistency
throughout the video, we incorporate appearance- and shape-aware latent
representations for objects. Extensive experiments on the challenging Bridge V2
dataset, as well as in-the-wild evaluation, demonstrate that our method
outperforms existing approaches, establishing new state-of-the-art performance
in trajectory-controlled video generation for robotic manipulation.