Coreografare un Mondo di Oggetti Dinamici

Abstract

Gli oggetti dinamici nel nostro mondo fisico 4D (3D + tempo) si evolvono, deformano e interagiscono costantemente con altri oggetti, dando origine a dinamiche di scena 4D diversificate. In questo articolo, presentiamo CHORD, una pipeline generativa universale per coreografare oggetti e scene dinamiche e sintetizzare questo tipo di fenomeni. Le tradizionali pipeline grafiche basate su regole per creare queste dinamiche si basano su euristiche specifiche per categoria, ma sono laboriose e non scalabili. I recenti metodi basati sull'apprendimento richiedono tipicamente dataset su larga scala, che potrebbero non coprire tutte le categorie di oggetti di interesse. Il nostro approccio, invece, eredita l'universalità dai modelli generativi video proponendo una pipeline basata sulla distillazione per estrarre le ricche informazioni sul moto lagrangiano nascoste nelle rappresentazioni euleriane dei video 2D. Il nostro metodo è universale, versatile e indipendente dalla categoria. Ne dimostriamo l'efficacia conducendo esperimenti per generare un'ampia gamma di dinamiche 4D multi-corpo, ne mostriamo il vantaggio rispetto ai metodi esistenti e ne dimostriamo l'applicabilità nella generazione di politiche di manipolazione robotica. Pagina del progetto: https://yanzhelyu.github.io/chord

English

Dynamic objects in our physical 4D (3D + time) world are constantly evolving, deforming, and interacting with other objects, leading to diverse 4D scene dynamics. In this paper, we present a universal generative pipeline, CHORD, for CHOReographing Dynamic objects and scenes and synthesizing this type of phenomena. Traditional rule-based graphics pipelines to create these dynamics are based on category-specific heuristics, yet are labor-intensive and not scalable. Recent learning-based methods typically demand large-scale datasets, which may not cover all object categories in interest. Our approach instead inherits the universality from the video generative models by proposing a distillation-based pipeline to extract the rich Lagrangian motion information hidden in the Eulerian representations of 2D videos. Our method is universal, versatile, and category-agnostic. We demonstrate its effectiveness by conducting experiments to generate a diverse range of multi-body 4D dynamics, show its advantage compared to existing methods, and demonstrate its applicability in generating robotics manipulation policies. Project page: https://yanzhelyu.github.io/chord

Coreografare un Mondo di Oggetti Dinamici

Choreographing a World of Dynamic Objects

Abstract

Support