Leren van videogeneratie voor robotmanipulatie met collaboratieve trajectcontrole
Learning Video Generation for Robotic Manipulation with Collaborative Trajectory Control
June 2, 2025
Auteurs: Xiao Fu, Xintao Wang, Xian Liu, Jianhong Bai, Runsen Xu, Pengfei Wan, Di Zhang, Dahua Lin
cs.AI
Samenvatting
Recente vooruitgang in videodiffusiemodellen heeft een sterk potentieel aangetoond voor het genereren van gegevens voor robotische besluitvorming, waarbij trajectcondities een fijnmazige controle mogelijk maken. Bestaande methoden op basis van trajecten richten zich echter voornamelijk op de beweging van individuele objecten en hebben moeite met het vastleggen van interacties tussen meerdere objecten, wat cruciaal is voor complexe robotmanipulatie. Deze beperking ontstaat door de verstrengeling van meerdere kenmerken in overlappende gebieden, wat leidt tot verminderde visuele kwaliteit. Om dit aan te pakken, presenteren we RoboMaster, een nieuw raamwerk dat de dynamiek tussen objecten modelleert via een collaboratieve trajectformulering. In tegenstelling tot eerdere methoden die objecten ontbinden, is onze kern het ontbinden van het interactieproces in drie substappen: pre-interactie, interactie en post-interactie. Elke stap wordt gemodelleerd met behulp van het kenmerk van het dominante object, specifiek de robotarm in de pre- en post-interactiefasen en het gemanipuleerde object tijdens de interactie, waardoor het nadeel van het samenvoegen van kenmerken van meerdere objecten tijdens interactie in eerdere werk wordt verminderd. Om verder de semantische consistentie van het onderwerp gedurende de video te waarborgen, incorporeren we latenterepresentaties die gericht zijn op uiterlijk en vorm voor objecten. Uitgebreide experimenten op de uitdagende Bridge V2-dataset, evenals evaluatie in de praktijk, tonen aan dat onze methode de bestaande benaderingen overtreft en een nieuwe state-of-the-art prestaties vestigt in trajectgecontroleerde videogeneratie voor robotmanipulatie.
English
Recent advances in video diffusion models have demonstrated strong potential
for generating robotic decision-making data, with trajectory conditions further
enabling fine-grained control. However, existing trajectory-based methods
primarily focus on individual object motion and struggle to capture
multi-object interaction crucial in complex robotic manipulation. This
limitation arises from multi-feature entanglement in overlapping regions, which
leads to degraded visual fidelity. To address this, we present RoboMaster, a
novel framework that models inter-object dynamics through a collaborative
trajectory formulation. Unlike prior methods that decompose objects, our core
is to decompose the interaction process into three sub-stages: pre-interaction,
interaction, and post-interaction. Each stage is modeled using the feature of
the dominant object, specifically the robotic arm in the pre- and
post-interaction phases and the manipulated object during interaction, thereby
mitigating the drawback of multi-object feature fusion present during
interaction in prior work. To further ensure subject semantic consistency
throughout the video, we incorporate appearance- and shape-aware latent
representations for objects. Extensive experiments on the challenging Bridge V2
dataset, as well as in-the-wild evaluation, demonstrate that our method
outperforms existing approaches, establishing new state-of-the-art performance
in trajectory-controlled video generation for robotic manipulation.