ChatPaper.aiChatPaper

Обучение генерации видео для роботизированного манипулирования с совместным управлением траекториями

Learning Video Generation for Robotic Manipulation with Collaborative Trajectory Control

June 2, 2025
Авторы: Xiao Fu, Xintao Wang, Xian Liu, Jianhong Bai, Runsen Xu, Pengfei Wan, Di Zhang, Dahua Lin
cs.AI

Аннотация

Последние достижения в области моделей диффузии видео продемонстрировали значительный потенциал для генерации данных, используемых в принятии решений роботами, при этом условия траекторий обеспечивают более детализированный контроль. Однако существующие методы, основанные на траекториях, в основном сосредоточены на движении отдельных объектов и испытывают трудности с захватом взаимодействия нескольких объектов, что имеет решающее значение в сложных манипуляциях роботов. Это ограничение возникает из-за переплетения множества признаков в перекрывающихся областях, что приводит к снижению визуальной точности. Для решения этой проблемы мы представляем RoboMaster, новый фреймворк, который моделирует динамику взаимодействия объектов через совместную формулировку траекторий. В отличие от предыдущих методов, которые декомпозируют объекты, наша основная идея заключается в декомпозиции процесса взаимодействия на три подэтапа: предварительное взаимодействие, взаимодействие и последующее взаимодействие. Каждый этап моделируется с использованием признаков доминирующего объекта, а именно манипулятора робота на этапах предварительного и последующего взаимодействия и управляемого объекта во время взаимодействия, что позволяет устранить недостаток слияния признаков нескольких объектов, присутствующий в предыдущих работах. Для дальнейшего обеспечения семантической согласованности объектов на протяжении всего видео мы включаем латентные представления, учитывающие внешний вид и форму объектов. Многочисленные эксперименты на сложном наборе данных Bridge V2, а также оценки в реальных условиях демонстрируют, что наш метод превосходит существующие подходы, устанавливая новый уровень производительности в генерации видео с управлением траекториями для манипуляций роботов.
English
Recent advances in video diffusion models have demonstrated strong potential for generating robotic decision-making data, with trajectory conditions further enabling fine-grained control. However, existing trajectory-based methods primarily focus on individual object motion and struggle to capture multi-object interaction crucial in complex robotic manipulation. This limitation arises from multi-feature entanglement in overlapping regions, which leads to degraded visual fidelity. To address this, we present RoboMaster, a novel framework that models inter-object dynamics through a collaborative trajectory formulation. Unlike prior methods that decompose objects, our core is to decompose the interaction process into three sub-stages: pre-interaction, interaction, and post-interaction. Each stage is modeled using the feature of the dominant object, specifically the robotic arm in the pre- and post-interaction phases and the manipulated object during interaction, thereby mitigating the drawback of multi-object feature fusion present during interaction in prior work. To further ensure subject semantic consistency throughout the video, we incorporate appearance- and shape-aware latent representations for objects. Extensive experiments on the challenging Bridge V2 dataset, as well as in-the-wild evaluation, demonstrate that our method outperforms existing approaches, establishing new state-of-the-art performance in trajectory-controlled video generation for robotic manipulation.
PDF232June 3, 2025