ChatPaper.aiChatPaper

Структура из отслеживания: Извлечение структуро-сохраняющего движения для генерации видео

Structure From Tracking: Distilling Structure-Preserving Motion for Video Generation

December 12, 2025
Авторы: Yang Fei, George Stoica, Jingyuan Liu, Qifeng Chen, Ranjay Krishna, Xiaojuan Wang, Benlin Liu
cs.AI

Аннотация

Реальность представляет собой взаимодействие между жёсткими ограничениями и деформируемыми структурами. Для видео-моделей это означает генерацию движения, которое сохраняет как достоверность, так и структуру. Несмотря на прогресс в диффузионных моделях, создание реалистичного, структуро-сохраняющего движения остаётся сложной задачей, особенно для сочленённых и деформируемых объектов, таких как люди и животные. Масштабирование одних лишь обучающих данных до сих пор не позволяло устранить физически неправдоподобные переходы. Существующие подходы полагаются на кондиционирование с использованием зашумлённых представлений движения, таких как оптический поток или скелеты, извлечённые с помощью внешней неидеальной модели. Для решения этих проблем мы представляем алгоритм для дистилляции априорных знаний о структуро-сохраняющем движении из авторегрессионной модели отслеживания видео (SAM2) в двунаправленную диффузионную видео-модель (CogVideoX). С помощью нашего метода мы обучаем SAM2VideoX, который содержит два нововведения: (1) модуль двунаправленного слияния признаков, который извлекает глобальные априорные знания о структуро-сохраняющем движении из рекуррентной модели, такой как SAM2; (2) функцию потерь Local Gram Flow, которая выравнивает совместное движение локальных признаков. Эксперименты на VBench и в исследованиях с участием людей показывают, что SAM2VideoX обеспечивает стабильное улучшение (+2.60% на VBench, на 21-22% ниже FVD и 71.4% предпочтений людей) по сравнению с предыдущими базовыми методами. В частности, на VBench мы достигаем показателя 95.51%, превосходя REPA (92.91%) на 2.60%, и снижаем FVD до 360.57, что на 21.20% и 22.46% лучше, чем у REPA- и LoRA-дообучения соответственно. Сайт проекта доступен по адресу https://sam2videox.github.io/.
English
Reality is a dance between rigid constraints and deformable structures. For video models, that means generating motion that preserves fidelity as well as structure. Despite progress in diffusion models, producing realistic structure-preserving motion remains challenging, especially for articulated and deformable objects such as humans and animals. Scaling training data alone, so far, has failed to resolve physically implausible transitions. Existing approaches rely on conditioning with noisy motion representations, such as optical flow or skeletons extracted using an external imperfect model. To address these challenges, we introduce an algorithm to distill structure-preserving motion priors from an autoregressive video tracking model (SAM2) into a bidirectional video diffusion model (CogVideoX). With our method, we train SAM2VideoX, which contains two innovations: (1) a bidirectional feature fusion module that extracts global structure-preserving motion priors from a recurrent model like SAM2; (2) a Local Gram Flow loss that aligns how local features move together. Experiments on VBench and in human studies show that SAM2VideoX delivers consistent gains (+2.60\% on VBench, 21-22\% lower FVD, and 71.4\% human preference) over prior baselines. Specifically, on VBench, we achieve 95.51\%, surpassing REPA (92.91\%) by 2.60\%, and reduce FVD to 360.57, a 21.20\% and 22.46\% improvement over REPA- and LoRA-finetuning, respectively. The project website can be found at https://sam2videox.github.io/ .
PDF92December 17, 2025