Apprentissage de la génération vidéo pour la manipulation robotique avec contrôle collaboratif de trajectoire
Learning Video Generation for Robotic Manipulation with Collaborative Trajectory Control
June 2, 2025
Auteurs: Xiao Fu, Xintao Wang, Xian Liu, Jianhong Bai, Runsen Xu, Pengfei Wan, Di Zhang, Dahua Lin
cs.AI
Résumé
Les récentes avancées dans les modèles de diffusion vidéo ont démontré un fort potentiel pour la génération de données de prise de décision robotique, avec des conditions de trajectoire permettant un contrôle plus fin. Cependant, les méthodes existantes basées sur la trajectoire se concentrent principalement sur le mouvement d'objets individuels et peinent à capturer les interactions multi-objets, cruciales dans les manipulations robotiques complexes. Cette limitation découle de l'enchevêtrement de multiples caractéristiques dans les régions qui se chevauchent, ce qui entraîne une dégradation de la fidélité visuelle. Pour remédier à cela, nous présentons RoboMaster, un nouveau cadre qui modélise la dynamique inter-objets à travers une formulation collaborative de trajectoire. Contrairement aux méthodes précédentes qui décomposent les objets, notre approche consiste à décomposer le processus d'interaction en trois sous-étapes : pré-interaction, interaction et post-interaction. Chaque étape est modélisée en utilisant la caractéristique de l'objet dominant, spécifiquement le bras robotique dans les phases de pré- et post-interaction, et l'objet manipulé pendant l'interaction, atténuant ainsi l'inconvénient de la fusion des caractéristiques multi-objets présente dans les travaux antérieurs. Pour garantir davantage la cohérence sémantique du sujet tout au long de la vidéo, nous intégrons des représentations latentes sensibles à l'apparence et à la forme des objets. Des expériences approfondies sur le jeu de données complexe Bridge V2, ainsi qu'une évaluation en conditions réelles, démontrent que notre méthode surpasse les approches existantes, établissant ainsi une nouvelle référence en matière de génération vidéo contrôlée par trajectoire pour la manipulation robotique.
English
Recent advances in video diffusion models have demonstrated strong potential
for generating robotic decision-making data, with trajectory conditions further
enabling fine-grained control. However, existing trajectory-based methods
primarily focus on individual object motion and struggle to capture
multi-object interaction crucial in complex robotic manipulation. This
limitation arises from multi-feature entanglement in overlapping regions, which
leads to degraded visual fidelity. To address this, we present RoboMaster, a
novel framework that models inter-object dynamics through a collaborative
trajectory formulation. Unlike prior methods that decompose objects, our core
is to decompose the interaction process into three sub-stages: pre-interaction,
interaction, and post-interaction. Each stage is modeled using the feature of
the dominant object, specifically the robotic arm in the pre- and
post-interaction phases and the manipulated object during interaction, thereby
mitigating the drawback of multi-object feature fusion present during
interaction in prior work. To further ensure subject semantic consistency
throughout the video, we incorporate appearance- and shape-aware latent
representations for objects. Extensive experiments on the challenging Bridge V2
dataset, as well as in-the-wild evaluation, demonstrate that our method
outperforms existing approaches, establishing new state-of-the-art performance
in trajectory-controlled video generation for robotic manipulation.