Zähmung generativer Videomodelle für die Extraktion von optischem Fluss ohne Vorwissen
Taming generative video models for zero-shot optical flow extraction
July 11, 2025
papers.authors: Seungwoo Kim, Khai Loong Aw, Klemen Kotar, Cristobal Eyzaguirre, Wanhee Lee, Yunong Liu, Jared Watrous, Stefan Stojanov, Juan Carlos Niebles, Jiajun Wu, Daniel L. K. Yamins
cs.AI
papers.abstract
Die Extraktion von optischem Fluss aus Videos bleibt ein zentrales Problem der Computer Vision. Angeregt durch den Erfolg großer, allgemeiner Modelle, stellen wir die Frage, ob eingefrorene, selbstüberwachte Videomodelle, die ausschließlich für die Vorhersage zukünftiger Bilder trainiert wurden, ohne Feinabstimmung dazu gebracht werden können, Fluss zu erzeugen. Frühere Arbeiten, die Tiefe oder Beleuchtung aus Video-Generatoren ausgelesen haben, erforderten eine Feinabstimmung, was für Fluss unpraktisch ist, da Labels knapp sind und synthetische Datensätze unter einer Sim-to-Real-Lücke leiden. Inspiriert durch das Paradigma des Counterfactual World Model (CWM), das punktweise Korrespondenzen durch das Einbringen einer kleinen Tracer-Störung in einen nächsten-Bild-Vorhersager und das Verfolgen seiner Ausbreitung erhält, erweitern wir diese Idee auf generative Videomodelle. Wir untersuchen mehrere populäre Architekturen und stellen fest, dass eine erfolgreiche Null-Shot-Fluss-Extraktion auf diese Weise durch drei Modelleigenschaften begünstigt wird: (1) die verteilungsbasierte Vorhersage zukünftiger Bilder (vermeidet unscharfe oder verrauschte Ausgaben); (2) faktorisierte Latents, die jeden räumlich-zeitlichen Patch unabhängig behandeln; und (3) Random-Access-Decoding, das auf jede Teilmenge zukünftiger Pixel konditionieren kann. Diese Eigenschaften sind einzigartig in der kürzlich entwickelten Local Random Access Sequence (LRAS)-Architektur vorhanden. Aufbauend auf LRAS schlagen wir KL-Tracing vor: ein neuartiges Testzeit-Verfahren, das eine lokalisierte Störung in das erste Bild einbringt, das Modell einen Schritt weiterrollt und die Kullback-Leibler-Divergenz zwischen gestörten und ungestörten Vorhersageverteilungen berechnet. Ohne jegliche flussspezifische Feinabstimmung übertrifft unsere Methode state-of-the-art Modelle auf dem realen TAP-Vid DAVIS-Datensatz (16,6 % relative Verbesserung für den Endpunktfehler) und dem synthetischen TAP-Vid Kubric (4,7 % relative Verbesserung). Unsere Ergebnisse zeigen, dass das kontrafaktuelle Prompting kontrollierbarer generativer Videomodelle eine skalierbare und effektive Alternative zu überwachten oder photometrischen Verlustansätzen für hochwertigen Fluss darstellt.
English
Extracting optical flow from videos remains a core computer vision problem.
Motivated by the success of large general-purpose models, we ask whether frozen
self-supervised video models trained only for future frame prediction can be
prompted, without fine-tuning, to output flow. Prior work reading out depth or
illumination from video generators required fine-tuning, which is impractical
for flow where labels are scarce and synthetic datasets suffer from a
sim-to-real gap. Inspired by the Counterfactual World Model (CWM) paradigm,
which can obtain point-wise correspondences by injecting a small tracer
perturbation into a next-frame predictor and tracking its propagation, we
extend this idea to generative video models. We explore several popular
architectures and find that successful zero-shot flow extraction in this manner
is aided by three model properties: (1) distributional prediction of future
frames (avoiding blurry or noisy outputs); (2) factorized latents that treat
each spatio-temporal patch independently; and (3) random-access decoding that
can condition on any subset of future pixels. These properties are uniquely
present in the recent Local Random Access Sequence (LRAS) architecture.
Building on LRAS, we propose KL-tracing: a novel test-time procedure that
injects a localized perturbation into the first frame, rolls out the model one
step, and computes the Kullback-Leibler divergence between perturbed and
unperturbed predictive distributions. Without any flow-specific fine-tuning,
our method outperforms state-of-the-art models on real-world TAP-Vid DAVIS
dataset (16.6% relative improvement for endpoint error) and synthetic TAP-Vid
Kubric (4.7% relative improvement). Our results indicate that counterfactual
prompting of controllable generative video models is a scalable and effective
alternative to supervised or photometric-loss approaches for high-quality flow.