ChatPaper.aiChatPaper

Coreografiando un Mundo de Objetos Dinámicos

Choreographing a World of Dynamic Objects

January 7, 2026
Autores: Yanzhe Lyu, Chen Geng, Karthik Dharmarajan, Yunzhi Zhang, Hadi Alzayer, Shangzhe Wu, Jiajun Wu
cs.AI

Resumen

Los objetos dinámicos en nuestro mundo físico 4D (3D + tiempo) evolucionan, se deforman e interactúan constantemente con otros objetos, dando lugar a diversas dinámicas de escenas 4D. En este artículo, presentamos CHORD, una canalización generativa universal para coreografiar objetos y escenas dinámicas y sintetizar este tipo de fenómenos. Las canalizaciones gráficas tradicionales basadas en reglas para crear estas dinámicas se basan en heurísticas específicas por categoría, pero son laboriosas y no escalables. Los métodos recientes basados en aprendizaje generalmente requieren conjuntos de datos a gran escala, que pueden no cubrir todas las categorías de objetos de interés. Nuestro enfoque, en cambio, hereda la universalidad de los modelos generativos de video al proponer una canalización basada en destilación para extraer la rica información de movimiento lagrangiana oculta en las representaciones eulerianas de videos 2D. Nuestro método es universal, versátil y agnóstico respecto a categorías. Demostramos su eficacia mediante experimentos para generar una amplia gama de dinámicas 4D multicuerpo, mostramos su ventaja frente a métodos existentes y demostramos su aplicabilidad en la generación de políticas de manipulación robótica. Página del proyecto: https://yanzhelyu.github.io/chord
English
Dynamic objects in our physical 4D (3D + time) world are constantly evolving, deforming, and interacting with other objects, leading to diverse 4D scene dynamics. In this paper, we present a universal generative pipeline, CHORD, for CHOReographing Dynamic objects and scenes and synthesizing this type of phenomena. Traditional rule-based graphics pipelines to create these dynamics are based on category-specific heuristics, yet are labor-intensive and not scalable. Recent learning-based methods typically demand large-scale datasets, which may not cover all object categories in interest. Our approach instead inherits the universality from the video generative models by proposing a distillation-based pipeline to extract the rich Lagrangian motion information hidden in the Eulerian representations of 2D videos. Our method is universal, versatile, and category-agnostic. We demonstrate its effectiveness by conducting experiments to generate a diverse range of multi-body 4D dynamics, show its advantage compared to existing methods, and demonstrate its applicability in generating robotics manipulation policies. Project page: https://yanzhelyu.github.io/chord
PDF70January 9, 2026