Укрощение генеративных моделей видео для извлечения оптического потока в условиях нулевого сэмплирования
Taming generative video models for zero-shot optical flow extraction
July 11, 2025
Авторы: Seungwoo Kim, Khai Loong Aw, Klemen Kotar, Cristobal Eyzaguirre, Wanhee Lee, Yunong Liu, Jared Watrous, Stefan Stojanov, Juan Carlos Niebles, Jiajun Wu, Daniel L. K. Yamins
cs.AI
Аннотация
Извлечение оптического потока из видео остается ключевой задачей компьютерного зрения. Вдохновленные успехом крупных универсальных моделей, мы задаемся вопросом, можно ли заставить замороженные самоконтролируемые видео-модели, обученные только для предсказания будущих кадров, без тонкой настройки выдавать оптический поток. Предыдущие работы, извлекающие глубину или освещение из видео-генераторов, требовали тонкой настройки, что непрактично для оптического потока, где метки редки, а синтетические наборы данных страдают от разрыва между синтетикой и реальностью. Вдохновленные парадигмой Контрфактуальной Мировой Модели (CWM), которая может получать точечные соответствия, вводя небольшое трассирующее возмущение в предсказатель следующего кадра и отслеживая его распространение, мы расширяем эту идею на генеративные видео-модели. Мы исследуем несколько популярных архитектур и обнаруживаем, что успешное извлечение оптического потока без обучения в таком подходе поддерживается тремя свойствами модели: (1) распределенное предсказание будущих кадров (избегание размытых или зашумленных выходов); (2) факторизованные латентные переменные, которые обрабатывают каждый пространственно-временной патч независимо; и (3) декодирование с произвольным доступом, которое может учитывать любое подмножество будущих пикселей. Эти свойства уникально присутствуют в недавней архитектуре Local Random Access Sequence (LRAS). На основе LRAS мы предлагаем KL-tracing: новый процедурный метод на этапе тестирования, который вводит локализованное возмущение в первый кадр, разворачивает модель на один шаг и вычисляет расхождение Кульбака-Лейблера между возмущенным и невозмущенным предсказательными распределениями. Без какой-либо специфической тонкой настройки для оптического потока наш метод превосходит современные модели на реальном наборе данных TAP-Vid DAVIS (относительное улучшение ошибки конечной точки на 16,6%) и синтетическом TAP-Vid Kubric (относительное улучшение на 4,7%). Наши результаты показывают, что контрфактуальное управление управляемыми генеративными видео-моделями является масштабируемой и эффективной альтернативой подходам с использованием обучения с учителем или фотометрических потерь для получения высококачественного оптического потока.
English
Extracting optical flow from videos remains a core computer vision problem.
Motivated by the success of large general-purpose models, we ask whether frozen
self-supervised video models trained only for future frame prediction can be
prompted, without fine-tuning, to output flow. Prior work reading out depth or
illumination from video generators required fine-tuning, which is impractical
for flow where labels are scarce and synthetic datasets suffer from a
sim-to-real gap. Inspired by the Counterfactual World Model (CWM) paradigm,
which can obtain point-wise correspondences by injecting a small tracer
perturbation into a next-frame predictor and tracking its propagation, we
extend this idea to generative video models. We explore several popular
architectures and find that successful zero-shot flow extraction in this manner
is aided by three model properties: (1) distributional prediction of future
frames (avoiding blurry or noisy outputs); (2) factorized latents that treat
each spatio-temporal patch independently; and (3) random-access decoding that
can condition on any subset of future pixels. These properties are uniquely
present in the recent Local Random Access Sequence (LRAS) architecture.
Building on LRAS, we propose KL-tracing: a novel test-time procedure that
injects a localized perturbation into the first frame, rolls out the model one
step, and computes the Kullback-Leibler divergence between perturbed and
unperturbed predictive distributions. Without any flow-specific fine-tuning,
our method outperforms state-of-the-art models on real-world TAP-Vid DAVIS
dataset (16.6% relative improvement for endpoint error) and synthetic TAP-Vid
Kubric (4.7% relative improvement). Our results indicate that counterfactual
prompting of controllable generative video models is a scalable and effective
alternative to supervised or photometric-loss approaches for high-quality flow.