Генеративное редактирование движения видео с использованием 3D-треков точек
Generative Video Motion Editing with 3D Point Tracks
December 1, 2025
Авторы: Yao-Chih Lee, Zhoutong Zhang, Jiahui Huang, Jui-Hsien Wang, Joon-Young Lee, Jia-Bin Huang, Eli Shechtman, Zhengqi Li
cs.AI
Аннотация
Движения камеры и объектов играют ключевую роль в повествовании видеоролика. Однако точное редактирование этих захваченных движений остается серьезной проблемой, особенно при сложных перемещениях объектов. Современные подходы к управляемому движением преобразованию изображения в видео (I2V) часто не учитывают полный контекст сцены для согласованного редактирования, в то время как методы видео-в-видео (V2V) позволяют изменять точку обзора или осуществлять простое перемещение объектов, но обеспечивают ограниченный контроль над детализированным движением объектов. Мы представляем фреймворк V2V, основанный на треках объектов, который позволяет совместно редактировать движение камеры и объектов. Это достигается за счет кондиционирования модели генерации видео на исходном видео и парных 3D-треках, представляющих исходные и целевые движения. Эти 3D-треки устанавливают разреженные соответствия, которые переносят богатый контекст из исходного видео к новым движениям, сохраняя пространственно-временную согласованность. Важно, что по сравнению с 2D-треками, 3D-треки предоставляют явные глубинные подсказки, позволяя модели разрешать порядок глубины и работать с окклюзиями для точного редактирования движения. Обученная в два этапа на синтетических и реальных данных, наша модель поддерживает разнообразные виды редактирования движений, включая совместное управление камерой/объектами, перенос движения и нежесткую деформацию, раскрывая новый творческий потенциал в редактировании видео.
English
Camera and object motions are central to a video's narrative. However, precisely editing these captured motions remains a significant challenge, especially under complex object movements. Current motion-controlled image-to-video (I2V) approaches often lack full-scene context for consistent video editing, while video-to-video (V2V) methods provide viewpoint changes or basic object translation, but offer limited control over fine-grained object motion. We present a track-conditioned V2V framework that enables joint editing of camera and object motion. We achieve this by conditioning a video generation model on a source video and paired 3D point tracks representing source and target motions. These 3D tracks establish sparse correspondences that transfer rich context from the source video to new motions while preserving spatiotemporal coherence. Crucially, compared to 2D tracks, 3D tracks provide explicit depth cues, allowing the model to resolve depth order and handle occlusions for precise motion editing. Trained in two stages on synthetic and real data, our model supports diverse motion edits, including joint camera/object manipulation, motion transfer, and non-rigid deformation, unlocking new creative potential in video editing.