Coreografando um Mundo de Objetos Dinâmicos
Choreographing a World of Dynamic Objects
January 7, 2026
Autores: Yanzhe Lyu, Chen Geng, Karthik Dharmarajan, Yunzhi Zhang, Hadi Alzayer, Shangzhe Wu, Jiajun Wu
cs.AI
Resumo
Objetos dinâmicos em nosso mundo físico 4D (3D + tempo) estão em constante evolução, deformação e interação com outros objetos, resultando em dinâmicas de cena 4D diversificadas. Neste artigo, apresentamos CHORD, um pipeline generativo universal para coreografar objetos e cenas dinâmicas e sintetizar este tipo de fenômeno. Os pipelines gráficos tradicionais baseados em regras para criar essas dinâmicas fundamentam-se em heurísticas específicas por categoria, mas são laboriosos e não escaláveis. Métodos recentes baseados em aprendizado geralmente exigem conjuntos de dados em larga escala, que podem não abranger todas as categorias de objetos de interesse. Nossa abordagem, em vez disso, herda a universalidade dos modelos generativos de vídeo ao propor um pipeline baseado em destilação para extrair as ricas informações de movimento Lagrangiano ocultas nas representações Eulerianas de vídeos 2D. Nosso método é universal, versátil e agnóstico em relação a categorias. Demonstramos sua eficácia através de experimentos para gerar uma ampla gama de dinâmicas 4D de corpos múltiplos, mostramos sua vantagem em comparação com métodos existentes e demonstramos sua aplicabilidade na geração de políticas de manipulação robótica. Página do projeto: https://yanzhelyu.github.io/chord
English
Dynamic objects in our physical 4D (3D + time) world are constantly evolving, deforming, and interacting with other objects, leading to diverse 4D scene dynamics. In this paper, we present a universal generative pipeline, CHORD, for CHOReographing Dynamic objects and scenes and synthesizing this type of phenomena. Traditional rule-based graphics pipelines to create these dynamics are based on category-specific heuristics, yet are labor-intensive and not scalable. Recent learning-based methods typically demand large-scale datasets, which may not cover all object categories in interest. Our approach instead inherits the universality from the video generative models by proposing a distillation-based pipeline to extract the rich Lagrangian motion information hidden in the Eulerian representations of 2D videos. Our method is universal, versatile, and category-agnostic. We demonstrate its effectiveness by conducting experiments to generate a diverse range of multi-body 4D dynamics, show its advantage compared to existing methods, and demonstrate its applicability in generating robotics manipulation policies. Project page: https://yanzhelyu.github.io/chord