Estructura a partir del Seguimiento: Destilación de Movimiento que Preserva la Estructura para la Generación de Vídeo
Structure From Tracking: Distilling Structure-Preserving Motion for Video Generation
December 12, 2025
Autores: Yang Fei, George Stoica, Jingyuan Liu, Qifeng Chen, Ranjay Krishna, Xiaojuan Wang, Benlin Liu
cs.AI
Resumen
La realidad es una danza entre restricciones rígidas y estructuras deformables. Para los modelos de video, esto implica generar movimiento que preserve tanto la fidelidad como la estructura. A pesar del progreso en los modelos de difusión, producir movimiento realista que preserve la estructura sigue siendo un desafío, especialmente para objetos articulados y deformables como humanos y animales. Hasta ahora, el simple escalado de los datos de entrenamiento no ha logrado resolver las transiciones físicamente inverosímiles. Los enfoques existentes dependen de condicionamientos con representaciones de movimiento ruidosas, como flujo óptico o esqueletos extraídos mediante un modelo externo imperfecto. Para abordar estos desafíos, presentamos un algoritmo para destilar *priors* de movimiento que preservan la estructura desde un modelo de seguimiento de video autoregresivo (SAM2) hacia un modelo de difusión de video bidireccional (CogVideoX). Con nuestro método, entrenamos SAM2VideoX, que contiene dos innovaciones: (1) un módulo de fusión de características bidireccional que extrae *priors* de movimiento que preservan la estructura global de un modelo recurrente como SAM2; (2) una pérdida de Flujo Gram Local que alinea cómo las características locales se mueven conjuntamente. Los experimentos en VBench y en estudios con humanos muestran que SAM2VideoX proporciona ganancias consistentes (+2.60% en VBench, 21-22% menos de FVD, y una preferencia humana del 71.4%) sobre las líneas base anteriores. Específicamente, en VBench, logramos un 95.51%, superando a REPA (92.91%) en un 2.60%, y reducimos el FVD a 360.57, una mejora del 21.20% y 22.46% sobre REPA y el ajuste fino con LoRA, respectivamente. El sitio web del proyecto se puede encontrar en https://sam2videox.github.io/.
English
Reality is a dance between rigid constraints and deformable structures. For video models, that means generating motion that preserves fidelity as well as structure. Despite progress in diffusion models, producing realistic structure-preserving motion remains challenging, especially for articulated and deformable objects such as humans and animals. Scaling training data alone, so far, has failed to resolve physically implausible transitions. Existing approaches rely on conditioning with noisy motion representations, such as optical flow or skeletons extracted using an external imperfect model. To address these challenges, we introduce an algorithm to distill structure-preserving motion priors from an autoregressive video tracking model (SAM2) into a bidirectional video diffusion model (CogVideoX). With our method, we train SAM2VideoX, which contains two innovations: (1) a bidirectional feature fusion module that extracts global structure-preserving motion priors from a recurrent model like SAM2; (2) a Local Gram Flow loss that aligns how local features move together. Experiments on VBench and in human studies show that SAM2VideoX delivers consistent gains (+2.60\% on VBench, 21-22\% lower FVD, and 71.4\% human preference) over prior baselines. Specifically, on VBench, we achieve 95.51\%, surpassing REPA (92.91\%) by 2.60\%, and reduce FVD to 360.57, a 21.20\% and 22.46\% improvement over REPA- and LoRA-finetuning, respectively. The project website can be found at https://sam2videox.github.io/ .