Domare i modelli generativi video per l'estrazione di flusso ottico zero-shot
Taming generative video models for zero-shot optical flow extraction
July 11, 2025
Autori: Seungwoo Kim, Khai Loong Aw, Klemen Kotar, Cristobal Eyzaguirre, Wanhee Lee, Yunong Liu, Jared Watrous, Stefan Stojanov, Juan Carlos Niebles, Jiajun Wu, Daniel L. K. Yamins
cs.AI
Abstract
L'estrazione del flusso ottico dai video rimane un problema fondamentale nel campo della visione artificiale. Ispirati dal successo dei modelli generalisti su larga scala, ci chiediamo se modelli video auto-supervisionati congelati, addestrati esclusivamente per la previsione di frame futuri, possano essere "promptati", senza fine-tuning, per produrre il flusso. Precedenti lavori che estraevano profondità o illuminazione dai generatori di video richiedevano il fine-tuning, il che è poco pratico per il flusso, dove le etichette sono scarse e i dataset sintetici soffrono del divario sim-to-real. Seguendo il paradigma del Counterfactual World Model (CWM), che può ottenere corrispondenze punto-punto iniettando una piccola perturbazione tracciante in un predittore di frame successivi e monitorandone la propagazione, estendiamo questa idea ai modelli generativi video. Esploriamo diverse architetture popolari e scopriamo che l'estrazione zero-shot del flusso in questo modo è favorita da tre proprietà del modello: (1) previsione distributiva dei frame futuri (evitando output sfocati o rumorosi); (2) latenti fattorizzati che trattano ogni patch spazio-temporale in modo indipendente; e (3) decodifica ad accesso casuale che può condizionarsi su qualsiasi sottoinsieme di pixel futuri. Queste proprietà sono unicamente presenti nella recente architettura Local Random Access Sequence (LRAS). Basandoci su LRAS, proponiamo il KL-tracing: una nuova procedura in fase di test che inietta una perturbazione localizzata nel primo frame, esegue il modello per un passo e calcola la divergenza di Kullback-Leibler tra le distribuzioni predittive perturbate e non perturbate. Senza alcun fine-tuning specifico per il flusso, il nostro metodo supera i modelli all'avanguardia sul dataset reale TAP-Vid DAVIS (miglioramento relativo del 16,6% per l'errore di endpoint) e sul sintetico TAP-Vid Kubric (miglioramento relativo del 4,7%). I nostri risultati indicano che il prompting controfattuale di modelli generativi video controllabili rappresenta un'alternativa scalabile ed efficace agli approcci supervisionati o basati su perdite fotometriche per ottenere flussi di alta qualità.
English
Extracting optical flow from videos remains a core computer vision problem.
Motivated by the success of large general-purpose models, we ask whether frozen
self-supervised video models trained only for future frame prediction can be
prompted, without fine-tuning, to output flow. Prior work reading out depth or
illumination from video generators required fine-tuning, which is impractical
for flow where labels are scarce and synthetic datasets suffer from a
sim-to-real gap. Inspired by the Counterfactual World Model (CWM) paradigm,
which can obtain point-wise correspondences by injecting a small tracer
perturbation into a next-frame predictor and tracking its propagation, we
extend this idea to generative video models. We explore several popular
architectures and find that successful zero-shot flow extraction in this manner
is aided by three model properties: (1) distributional prediction of future
frames (avoiding blurry or noisy outputs); (2) factorized latents that treat
each spatio-temporal patch independently; and (3) random-access decoding that
can condition on any subset of future pixels. These properties are uniquely
present in the recent Local Random Access Sequence (LRAS) architecture.
Building on LRAS, we propose KL-tracing: a novel test-time procedure that
injects a localized perturbation into the first frame, rolls out the model one
step, and computes the Kullback-Leibler divergence between perturbed and
unperturbed predictive distributions. Without any flow-specific fine-tuning,
our method outperforms state-of-the-art models on real-world TAP-Vid DAVIS
dataset (16.6% relative improvement for endpoint error) and synthetic TAP-Vid
Kubric (4.7% relative improvement). Our results indicate that counterfactual
prompting of controllable generative video models is a scalable and effective
alternative to supervised or photometric-loss approaches for high-quality flow.