Domestiquer les modèles génératifs vidéo pour l'extraction de flux optique en zero-shot
Taming generative video models for zero-shot optical flow extraction
July 11, 2025
papers.authors: Seungwoo Kim, Khai Loong Aw, Klemen Kotar, Cristobal Eyzaguirre, Wanhee Lee, Yunong Liu, Jared Watrous, Stefan Stojanov, Juan Carlos Niebles, Jiajun Wu, Daniel L. K. Yamins
cs.AI
papers.abstract
L'extraction du flux optique à partir de vidéos demeure un problème fondamental en vision par ordinateur. Motivés par le succès des modèles généraux à grande échelle, nous nous demandons si des modèles vidéo auto-supervisés, congelés et entraînés uniquement pour la prédiction de trames futures, peuvent être incités, sans réglage fin, à produire un flux. Les travaux antérieurs visant à extraire la profondeur ou l'éclairage à partir de générateurs vidéo nécessitaient un réglage fin, ce qui est peu pratique pour le flux, où les annotations sont rares et où les ensembles de données synthétiques souffrent d'un écart entre simulation et réalité. Inspirés par le paradigme du Modèle de Monde Contrefactuel (CWM), qui permet d'obtenir des correspondances ponctuelles en injectant une petite perturbation traceuse dans un prédicteur de trame suivante et en suivant sa propagation, nous étendons cette idée aux modèles génératifs vidéo. Nous explorons plusieurs architectures populaires et constatons que l'extraction de flux en mode zéro-shot de cette manière est facilitée par trois propriétés du modèle : (1) la prédiction distributionnelle des trames futures (évitant les sorties floues ou bruyantes) ; (2) les latents factorisés qui traitent chaque patch spatio-temporel indépendamment ; et (3) le décodage à accès aléatoire qui peut se conditionner sur n'importe quel sous-ensemble de pixels futurs. Ces propriétés sont uniquement présentes dans l'architecture récente Local Random Access Sequence (LRAS). En nous appuyant sur LRAS, nous proposons KL-tracing : une procédure novatrice au moment du test qui injecte une perturbation localisée dans la première trame, déroule le modèle d'un pas, et calcule la divergence de Kullback-Leibler entre les distributions prédictives perturbées et non perturbées. Sans aucun réglage fin spécifique au flux, notre méthode surpasse les modèles de pointe sur le jeu de données réel TAP-Vid DAVIS (amélioration relative de 16,6 % pour l'erreur de point final) et sur le jeu de données synthétique TAP-Vid Kubric (amélioration relative de 4,7 %). Nos résultats indiquent que l'incitation contrefactuelle de modèles génératifs vidéo contrôlables constitue une alternative scalable et efficace aux approches supervisées ou basées sur la perte photométrique pour un flux de haute qualité.
English
Extracting optical flow from videos remains a core computer vision problem.
Motivated by the success of large general-purpose models, we ask whether frozen
self-supervised video models trained only for future frame prediction can be
prompted, without fine-tuning, to output flow. Prior work reading out depth or
illumination from video generators required fine-tuning, which is impractical
for flow where labels are scarce and synthetic datasets suffer from a
sim-to-real gap. Inspired by the Counterfactual World Model (CWM) paradigm,
which can obtain point-wise correspondences by injecting a small tracer
perturbation into a next-frame predictor and tracking its propagation, we
extend this idea to generative video models. We explore several popular
architectures and find that successful zero-shot flow extraction in this manner
is aided by three model properties: (1) distributional prediction of future
frames (avoiding blurry or noisy outputs); (2) factorized latents that treat
each spatio-temporal patch independently; and (3) random-access decoding that
can condition on any subset of future pixels. These properties are uniquely
present in the recent Local Random Access Sequence (LRAS) architecture.
Building on LRAS, we propose KL-tracing: a novel test-time procedure that
injects a localized perturbation into the first frame, rolls out the model one
step, and computes the Kullback-Leibler divergence between perturbed and
unperturbed predictive distributions. Without any flow-specific fine-tuning,
our method outperforms state-of-the-art models on real-world TAP-Vid DAVIS
dataset (16.6% relative improvement for endpoint error) and synthetic TAP-Vid
Kubric (4.7% relative improvement). Our results indicate that counterfactual
prompting of controllable generative video models is a scalable and effective
alternative to supervised or photometric-loss approaches for high-quality flow.