Choreografie einer Welt dynamischer Objekte
Choreographing a World of Dynamic Objects
January 7, 2026
papers.authors: Yanzhe Lyu, Chen Geng, Karthik Dharmarajan, Yunzhi Zhang, Hadi Alzayer, Shangzhe Wu, Jiajun Wu
cs.AI
papers.abstract
Dynamische Objekte in unserer physischen 4D-Welt (3D + Zeit) entwickeln sich ständig weiter, verformen sich und interagieren mit anderen Objekten, was zu vielfältigen 4D-Szenendynamiken führt. In diesem Artikel stellen wir CHORD vor, eine universelle generative Pipeline zur CHOReografie dynamischer Objekte und Szenen sowie zur Synthese dieser Phänomene. Traditionelle regelbasierte Grafik-Pipelines zur Erzeugung dieser Dynamiken basieren auf kategoriespezifischen Heuristiken, sind jedoch arbeitsintensiv und nicht skalierbar. Neuere lernbasierte Methoden erfordern typischerweise umfangreiche Datensätze, die möglicherweise nicht alle interessierenden Objektkategorien abdecken. Unser Ansatz übernimmt stattdessen die Universalität von Video-Generierungsmodellen, indem wir eine destillationsbasierte Pipeline vorschlagen, um die umfassenden Lagrange'schen Bewegungsinformationen zu extrahieren, die in den Euler'schen Darstellungen von 2D-Videos verborgen sind. Unsere Methode ist universell, vielseitig und kategorieagnostisch. Wir demonstrieren ihre Wirksamkeit durch Experimente zur Erzeugung eines breiten Spektrums von Mehrkörper-4D-Dynamiken, zeigen ihre Vorteile gegenüber bestehenden Methoden und belegen ihre Anwendbarkeit bei der Generierung von Robotik-Manipulationsstrategien. Projektseite: https://yanzhelyu.github.io/chord
English
Dynamic objects in our physical 4D (3D + time) world are constantly evolving, deforming, and interacting with other objects, leading to diverse 4D scene dynamics. In this paper, we present a universal generative pipeline, CHORD, for CHOReographing Dynamic objects and scenes and synthesizing this type of phenomena. Traditional rule-based graphics pipelines to create these dynamics are based on category-specific heuristics, yet are labor-intensive and not scalable. Recent learning-based methods typically demand large-scale datasets, which may not cover all object categories in interest. Our approach instead inherits the universality from the video generative models by proposing a distillation-based pipeline to extract the rich Lagrangian motion information hidden in the Eulerian representations of 2D videos. Our method is universal, versatile, and category-agnostic. We demonstrate its effectiveness by conducting experiments to generate a diverse range of multi-body 4D dynamics, show its advantage compared to existing methods, and demonstrate its applicability in generating robotics manipulation policies. Project page: https://yanzhelyu.github.io/chord