Domando modelos generativos de video para la extracción de flujo óptico en modo zero-shot
Taming generative video models for zero-shot optical flow extraction
July 11, 2025
Autores: Seungwoo Kim, Khai Loong Aw, Klemen Kotar, Cristobal Eyzaguirre, Wanhee Lee, Yunong Liu, Jared Watrous, Stefan Stojanov, Juan Carlos Niebles, Jiajun Wu, Daniel L. K. Yamins
cs.AI
Resumen
La extracción de flujo óptico a partir de videos sigue siendo un problema fundamental en visión por computadora. Motivados por el éxito de los modelos generales de gran escala, nos preguntamos si los modelos de video autosupervisados congelados, entrenados únicamente para la predicción de fotogramas futuros, pueden ser "prompted" (instruidos), sin ajuste fino, para generar flujo óptico. Trabajos previos que extraían profundidad o iluminación a partir de generadores de video requerían ajuste fino, lo cual es poco práctico para el flujo óptico, donde las etiquetas son escasas y los conjuntos de datos sintéticos sufren de una brecha simulación-realidad. Inspirados por el paradigma del Modelo de Mundo Contrafactual (CWM, por sus siglas en inglés), que puede obtener correspondencias punto a punto inyectando una pequeña perturbación de trazado en un predictor de fotogramas futuros y rastreando su propagación, extendemos esta idea a modelos generativos de video. Exploramos varias arquitecturas populares y encontramos que la extracción de flujo óptico "zero-shot" (sin ajuste específico) de esta manera se ve favorecida por tres propiedades del modelo: (1) predicción distribucional de fotogramas futuros (evitando salidas borrosas o ruidosas); (2) latentes factorizados que tratan cada parche espacio-temporal de manera independiente; y (3) decodificación de acceso aleatorio que puede condicionarse en cualquier subconjunto de píxeles futuros. Estas propiedades están presentes de manera única en la reciente arquitectura de Secuencia de Acceso Aleatorio Local (LRAS, por sus siglas en inglés). Basándonos en LRAS, proponemos KL-tracing: un novedoso procedimiento en tiempo de prueba que inyecta una perturbación localizada en el primer fotograma, ejecuta el modelo un paso adelante y calcula la divergencia de Kullback-Leibler entre las distribuciones predictivas perturbadas y no perturbadas. Sin ningún ajuste específico para flujo óptico, nuestro método supera a los modelos de última generación en el conjunto de datos real TAP-Vid DAVIS (mejora relativa del 16.6% en el error de punto final) y en el conjunto sintético TAP-Vid Kubric (mejora relativa del 4.7%). Nuestros resultados indican que la instrucción contrafactual de modelos generativos de video controlables es una alternativa escalable y efectiva a los enfoques supervisados o basados en pérdidas fotométricas para obtener flujo óptico de alta calidad.
English
Extracting optical flow from videos remains a core computer vision problem.
Motivated by the success of large general-purpose models, we ask whether frozen
self-supervised video models trained only for future frame prediction can be
prompted, without fine-tuning, to output flow. Prior work reading out depth or
illumination from video generators required fine-tuning, which is impractical
for flow where labels are scarce and synthetic datasets suffer from a
sim-to-real gap. Inspired by the Counterfactual World Model (CWM) paradigm,
which can obtain point-wise correspondences by injecting a small tracer
perturbation into a next-frame predictor and tracking its propagation, we
extend this idea to generative video models. We explore several popular
architectures and find that successful zero-shot flow extraction in this manner
is aided by three model properties: (1) distributional prediction of future
frames (avoiding blurry or noisy outputs); (2) factorized latents that treat
each spatio-temporal patch independently; and (3) random-access decoding that
can condition on any subset of future pixels. These properties are uniquely
present in the recent Local Random Access Sequence (LRAS) architecture.
Building on LRAS, we propose KL-tracing: a novel test-time procedure that
injects a localized perturbation into the first frame, rolls out the model one
step, and computes the Kullback-Leibler divergence between perturbed and
unperturbed predictive distributions. Without any flow-specific fine-tuning,
our method outperforms state-of-the-art models on real-world TAP-Vid DAVIS
dataset (16.6% relative improvement for endpoint error) and synthetic TAP-Vid
Kubric (4.7% relative improvement). Our results indicate that counterfactual
prompting of controllable generative video models is a scalable and effective
alternative to supervised or photometric-loss approaches for high-quality flow.