Het temmen van generatieve videomodellen voor zero-shot optische stroomextractie
Taming generative video models for zero-shot optical flow extraction
July 11, 2025
Auteurs: Seungwoo Kim, Khai Loong Aw, Klemen Kotar, Cristobal Eyzaguirre, Wanhee Lee, Yunong Liu, Jared Watrous, Stefan Stojanov, Juan Carlos Niebles, Jiajun Wu, Daniel L. K. Yamins
cs.AI
Samenvatting
Het extraheren van optische flow uit video's blijft een kernprobleem in de computer vision. Geïnspireerd door het succes van grote, algemene modellen, onderzoeken we of bevroren, zelf-superviserende videomodellen die alleen zijn getraind voor toekomstige frame-voorspelling, zonder fine-tuning, kunnen worden aangestuurd om flow te produceren. Eerder werk dat diepte of belichting uit videogeneratoren uitleesde, vereiste fine-tuning, wat onpraktisch is voor flow waar labels schaars zijn en synthetische datasets lijden onder een sim-to-real kloof. Geïnspireerd door het Counterfactual World Model (CWM)-paradigma, dat punt-voor-punt correspondenties kan verkrijgen door een kleine tracer-verstoring in een volgende-frame-voorspeller te injecteren en de voortplanting ervan te volgen, breiden we dit idee uit naar generatieve videomodellen. We onderzoeken verschillende populaire architecturen en ontdekken dat succesvolle zero-shot flow-extractie op deze manier wordt ondersteund door drie model-eigenschappen: (1) distributieve voorspelling van toekomstige frames (het vermijden van wazige of ruisachtige uitvoer); (2) gefactoriseerde latente variabelen die elke ruimtelijk-temporele patch onafhankelijk behandelen; en (3) random-access decodering die kan conditioneren op elke subset van toekomstige pixels. Deze eigenschappen zijn uniek aanwezig in de recente Local Random Access Sequence (LRAS)-architectuur. Op basis van LRAS stellen we KL-tracing voor: een nieuwe test-time procedure die een gelokaliseerde verstoring in het eerste frame injecteert, het model één stap uitrolt, en de Kullback-Leibler-divergentie berekent tussen verstoorde en onverstoorde voorspellingsdistributies. Zonder enige flow-specifieke fine-tuning presteert onze methode beter dan state-of-the-art modellen op de real-world TAP-Vid DAVIS-dataset (16,6% relatieve verbetering voor endpoint error) en de synthetische TAP-Vid Kubric (4,7% relatieve verbetering). Onze resultaten geven aan dat counterfactual prompting van controleerbare generatieve videomodellen een schaalbare en effectieve alternatieve benadering is voor begeleide of fotometrische-verliesmethoden voor hoogwaardige flow.
English
Extracting optical flow from videos remains a core computer vision problem.
Motivated by the success of large general-purpose models, we ask whether frozen
self-supervised video models trained only for future frame prediction can be
prompted, without fine-tuning, to output flow. Prior work reading out depth or
illumination from video generators required fine-tuning, which is impractical
for flow where labels are scarce and synthetic datasets suffer from a
sim-to-real gap. Inspired by the Counterfactual World Model (CWM) paradigm,
which can obtain point-wise correspondences by injecting a small tracer
perturbation into a next-frame predictor and tracking its propagation, we
extend this idea to generative video models. We explore several popular
architectures and find that successful zero-shot flow extraction in this manner
is aided by three model properties: (1) distributional prediction of future
frames (avoiding blurry or noisy outputs); (2) factorized latents that treat
each spatio-temporal patch independently; and (3) random-access decoding that
can condition on any subset of future pixels. These properties are uniquely
present in the recent Local Random Access Sequence (LRAS) architecture.
Building on LRAS, we propose KL-tracing: a novel test-time procedure that
injects a localized perturbation into the first frame, rolls out the model one
step, and computes the Kullback-Leibler divergence between perturbed and
unperturbed predictive distributions. Without any flow-specific fine-tuning,
our method outperforms state-of-the-art models on real-world TAP-Vid DAVIS
dataset (16.6% relative improvement for endpoint error) and synthetic TAP-Vid
Kubric (4.7% relative improvement). Our results indicate that counterfactual
prompting of controllable generative video models is a scalable and effective
alternative to supervised or photometric-loss approaches for high-quality flow.