Leren van videogeneratie voor robotmanipulatie met collaboratieve trajectcontrole

Samenvatting

Recente vooruitgang in videodiffusiemodellen heeft een sterk potentieel aangetoond voor het genereren van gegevens voor robotische besluitvorming, waarbij trajectcondities een fijnmazige controle mogelijk maken. Bestaande methoden op basis van trajecten richten zich echter voornamelijk op de beweging van individuele objecten en hebben moeite met het vastleggen van interacties tussen meerdere objecten, wat cruciaal is voor complexe robotmanipulatie. Deze beperking ontstaat door de verstrengeling van meerdere kenmerken in overlappende gebieden, wat leidt tot verminderde visuele kwaliteit. Om dit aan te pakken, presenteren we RoboMaster, een nieuw raamwerk dat de dynamiek tussen objecten modelleert via een collaboratieve trajectformulering. In tegenstelling tot eerdere methoden die objecten ontbinden, is onze kern het ontbinden van het interactieproces in drie substappen: pre-interactie, interactie en post-interactie. Elke stap wordt gemodelleerd met behulp van het kenmerk van het dominante object, specifiek de robotarm in de pre- en post-interactiefasen en het gemanipuleerde object tijdens de interactie, waardoor het nadeel van het samenvoegen van kenmerken van meerdere objecten tijdens interactie in eerdere werk wordt verminderd. Om verder de semantische consistentie van het onderwerp gedurende de video te waarborgen, incorporeren we latenterepresentaties die gericht zijn op uiterlijk en vorm voor objecten. Uitgebreide experimenten op de uitdagende Bridge V2-dataset, evenals evaluatie in de praktijk, tonen aan dat onze methode de bestaande benaderingen overtreft en een nieuwe state-of-the-art prestaties vestigt in trajectgecontroleerde videogeneratie voor robotmanipulatie.

English

Recent advances in video diffusion models have demonstrated strong potential for generating robotic decision-making data, with trajectory conditions further enabling fine-grained control. However, existing trajectory-based methods primarily focus on individual object motion and struggle to capture multi-object interaction crucial in complex robotic manipulation. This limitation arises from multi-feature entanglement in overlapping regions, which leads to degraded visual fidelity. To address this, we present RoboMaster, a novel framework that models inter-object dynamics through a collaborative trajectory formulation. Unlike prior methods that decompose objects, our core is to decompose the interaction process into three sub-stages: pre-interaction, interaction, and post-interaction. Each stage is modeled using the feature of the dominant object, specifically the robotic arm in the pre- and post-interaction phases and the manipulated object during interaction, thereby mitigating the drawback of multi-object feature fusion present during interaction in prior work. To further ensure subject semantic consistency throughout the video, we incorporate appearance- and shape-aware latent representations for objects. Extensive experiments on the challenging Bridge V2 dataset, as well as in-the-wild evaluation, demonstrate that our method outperforms existing approaches, establishing new state-of-the-art performance in trajectory-controlled video generation for robotic manipulation.

Leren van videogeneratie voor robotmanipulatie met collaboratieve trajectcontrole

Learning Video Generation for Robotic Manipulation with Collaborative Trajectory Control

Samenvatting

Support