ChatPaper.aiChatPaper

Хореография мира динамических объектов

Choreographing a World of Dynamic Objects

January 7, 2026
Авторы: Yanzhe Lyu, Chen Geng, Karthik Dharmarajan, Yunzhi Zhang, Hadi Alzayer, Shangzhe Wu, Jiajun Wu
cs.AI

Аннотация

Динамические объекты в нашем физическом 4D-мире (3D + время) постоянно развиваются, деформируются и взаимодействуют с другими объектами, что приводит к разнообразной динамике 4D-сцен. В данной статье мы представляем универсальный генеративный конвейер CHORD для хореографии динамических объектов и сцен и синтеза подобных явлений. Традиционные правилавые графические конвейеры для создания такой динамики основаны на эвристиках, специфичных для категорий, однако они трудоемки и плохо масштабируются. Современные методы на основе машинного обучения обычно требуют крупномасштабных наборов данных, которые могут не охватывать все интересующие объектные категории. Наш подход, напротив, наследует универсальность моделей генерации видео, предлагая конвейер на основе дистилляции для извлечения богатой лагранжевой информации о движении, скрытой в эйлеровых представлениях 2D-видео. Наш метод является универсальным, гибким и не зависящим от категорий. Мы демонстрируем его эффективность, проводя эксперименты по генерации широкого спектра многокомпонентной 4D-динамики, показываем его преимущества по сравнению с существующими методами и иллюстрируем применимость для генерации политик манипуляций в робототехнике. Страница проекта: https://yanzhelyu.github.io/chord
English
Dynamic objects in our physical 4D (3D + time) world are constantly evolving, deforming, and interacting with other objects, leading to diverse 4D scene dynamics. In this paper, we present a universal generative pipeline, CHORD, for CHOReographing Dynamic objects and scenes and synthesizing this type of phenomena. Traditional rule-based graphics pipelines to create these dynamics are based on category-specific heuristics, yet are labor-intensive and not scalable. Recent learning-based methods typically demand large-scale datasets, which may not cover all object categories in interest. Our approach instead inherits the universality from the video generative models by proposing a distillation-based pipeline to extract the rich Lagrangian motion information hidden in the Eulerian representations of 2D videos. Our method is universal, versatile, and category-agnostic. We demonstrate its effectiveness by conducting experiments to generate a diverse range of multi-body 4D dynamics, show its advantage compared to existing methods, and demonstrate its applicability in generating robotics manipulation policies. Project page: https://yanzhelyu.github.io/chord
PDF70January 9, 2026