ChatPaper.aiChatPaper

Apprentissage de la génération vidéo pour la manipulation robotique avec contrôle collaboratif de trajectoire

Learning Video Generation for Robotic Manipulation with Collaborative Trajectory Control

June 2, 2025
Auteurs: Xiao Fu, Xintao Wang, Xian Liu, Jianhong Bai, Runsen Xu, Pengfei Wan, Di Zhang, Dahua Lin
cs.AI

Résumé

Les récentes avancées dans les modèles de diffusion vidéo ont démontré un fort potentiel pour la génération de données de prise de décision robotique, avec des conditions de trajectoire permettant un contrôle plus fin. Cependant, les méthodes existantes basées sur la trajectoire se concentrent principalement sur le mouvement d'objets individuels et peinent à capturer les interactions multi-objets, cruciales dans les manipulations robotiques complexes. Cette limitation découle de l'enchevêtrement de multiples caractéristiques dans les régions qui se chevauchent, ce qui entraîne une dégradation de la fidélité visuelle. Pour remédier à cela, nous présentons RoboMaster, un nouveau cadre qui modélise la dynamique inter-objets à travers une formulation collaborative de trajectoire. Contrairement aux méthodes précédentes qui décomposent les objets, notre approche consiste à décomposer le processus d'interaction en trois sous-étapes : pré-interaction, interaction et post-interaction. Chaque étape est modélisée en utilisant la caractéristique de l'objet dominant, spécifiquement le bras robotique dans les phases de pré- et post-interaction, et l'objet manipulé pendant l'interaction, atténuant ainsi l'inconvénient de la fusion des caractéristiques multi-objets présente dans les travaux antérieurs. Pour garantir davantage la cohérence sémantique du sujet tout au long de la vidéo, nous intégrons des représentations latentes sensibles à l'apparence et à la forme des objets. Des expériences approfondies sur le jeu de données complexe Bridge V2, ainsi qu'une évaluation en conditions réelles, démontrent que notre méthode surpasse les approches existantes, établissant ainsi une nouvelle référence en matière de génération vidéo contrôlée par trajectoire pour la manipulation robotique.
English
Recent advances in video diffusion models have demonstrated strong potential for generating robotic decision-making data, with trajectory conditions further enabling fine-grained control. However, existing trajectory-based methods primarily focus on individual object motion and struggle to capture multi-object interaction crucial in complex robotic manipulation. This limitation arises from multi-feature entanglement in overlapping regions, which leads to degraded visual fidelity. To address this, we present RoboMaster, a novel framework that models inter-object dynamics through a collaborative trajectory formulation. Unlike prior methods that decompose objects, our core is to decompose the interaction process into three sub-stages: pre-interaction, interaction, and post-interaction. Each stage is modeled using the feature of the dominant object, specifically the robotic arm in the pre- and post-interaction phases and the manipulated object during interaction, thereby mitigating the drawback of multi-object feature fusion present during interaction in prior work. To further ensure subject semantic consistency throughout the video, we incorporate appearance- and shape-aware latent representations for objects. Extensive experiments on the challenging Bridge V2 dataset, as well as in-the-wild evaluation, demonstrate that our method outperforms existing approaches, establishing new state-of-the-art performance in trajectory-controlled video generation for robotic manipulation.
PDF232June 3, 2025