Domando modelos generativos de vídeo para extração de fluxo óptico zero-shot
Taming generative video models for zero-shot optical flow extraction
July 11, 2025
Autores: Seungwoo Kim, Khai Loong Aw, Klemen Kotar, Cristobal Eyzaguirre, Wanhee Lee, Yunong Liu, Jared Watrous, Stefan Stojanov, Juan Carlos Niebles, Jiajun Wu, Daniel L. K. Yamins
cs.AI
Resumo
A extração de fluxo óptico a partir de vídeos continua sendo um problema central na visão computacional. Motivados pelo sucesso de modelos gerais de grande escala, questionamos se modelos de vídeo auto-supervisionados congelados, treinados apenas para previsão de quadros futuros, podem ser "promptados", sem ajuste fino, para gerar fluxo. Trabalhos anteriores que extraíram profundidade ou iluminação de geradores de vídeo exigiram ajuste fino, o que é impraticável para fluxo, onde os rótulos são escassos e os conjuntos de dados sintéticos sofrem com a lacuna sim-to-real. Inspirados pelo paradigma do Modelo de Mundo Contrafactual (CWM), que pode obter correspondências ponto a ponto ao injetar uma pequena perturbação traçadora em um preditor de quadro seguinte e rastrear sua propagação, estendemos essa ideia para modelos generativos de vídeo. Exploramos várias arquiteturas populares e descobrimos que a extração de fluxo zero-shot bem-sucedida dessa maneira é auxiliada por três propriedades do modelo: (1) previsão distribucional de quadros futuros (evitando saídas borradas ou ruidosas); (2) latentes fatorizados que tratam cada patch espaço-temporal de forma independente; e (3) decodificação de acesso aleatório que pode condicionar qualquer subconjunto de pixels futuros. Essas propriedades estão exclusivamente presentes na recente arquitetura Local Random Access Sequence (LRAS). Com base na LRAS, propomos o KL-tracing: um novo procedimento em tempo de teste que injeta uma perturbação localizada no primeiro quadro, executa o modelo um passo adiante e calcula a divergência de Kullback-Leibler entre as distribuições preditivas perturbadas e não perturbadas. Sem qualquer ajuste fino específico para fluxo, nosso método supera os modelos state-of-the-art no conjunto de dados real TAP-Vid DAVIS (melhoria relativa de 16,6% no erro de ponto final) e no sintético TAP-Vid Kubric (melhoria relativa de 4,7%). Nossos resultados indicam que o "prompting" contrafactual de modelos generativos de vídeo controláveis é uma alternativa escalável e eficaz às abordagens supervisionadas ou baseadas em perda fotométrica para fluxo de alta qualidade.
English
Extracting optical flow from videos remains a core computer vision problem.
Motivated by the success of large general-purpose models, we ask whether frozen
self-supervised video models trained only for future frame prediction can be
prompted, without fine-tuning, to output flow. Prior work reading out depth or
illumination from video generators required fine-tuning, which is impractical
for flow where labels are scarce and synthetic datasets suffer from a
sim-to-real gap. Inspired by the Counterfactual World Model (CWM) paradigm,
which can obtain point-wise correspondences by injecting a small tracer
perturbation into a next-frame predictor and tracking its propagation, we
extend this idea to generative video models. We explore several popular
architectures and find that successful zero-shot flow extraction in this manner
is aided by three model properties: (1) distributional prediction of future
frames (avoiding blurry or noisy outputs); (2) factorized latents that treat
each spatio-temporal patch independently; and (3) random-access decoding that
can condition on any subset of future pixels. These properties are uniquely
present in the recent Local Random Access Sequence (LRAS) architecture.
Building on LRAS, we propose KL-tracing: a novel test-time procedure that
injects a localized perturbation into the first frame, rolls out the model one
step, and computes the Kullback-Leibler divergence between perturbed and
unperturbed predictive distributions. Without any flow-specific fine-tuning,
our method outperforms state-of-the-art models on real-world TAP-Vid DAVIS
dataset (16.6% relative improvement for endpoint error) and synthetic TAP-Vid
Kubric (4.7% relative improvement). Our results indicate that counterfactual
prompting of controllable generative video models is a scalable and effective
alternative to supervised or photometric-loss approaches for high-quality flow.