제로샷 광학 흐름 추출을 위한 생성적 비디오 모델 제어
Taming generative video models for zero-shot optical flow extraction
July 11, 2025
저자: Seungwoo Kim, Khai Loong Aw, Klemen Kotar, Cristobal Eyzaguirre, Wanhee Lee, Yunong Liu, Jared Watrous, Stefan Stojanov, Juan Carlos Niebles, Jiajun Wu, Daniel L. K. Yamins
cs.AI
초록
비디오에서 광학 흐름(optical flow)을 추출하는 것은 여전히 컴퓨터 비전의 핵심 문제로 남아 있습니다. 대규모 범용 모델의 성공에 영감을 받아, 미래 프레임 예측만을 위해 훈련된 고정된 자기 지도 비디오 모델이 미세 조정 없이도 흐름을 출력하도록 유도할 수 있는지 질문합니다. 이전 연구에서는 비디오 생성기로부터 깊이(depth)나 조명(illumination)을 읽어내기 위해 미세 조정이 필요했는데, 이는 레이블이 부족하고 합성 데이터셋이 시뮬레이션과 현실 간 격차를 겪는 흐름의 경우 실용적이지 않습니다. 카운터팩추얼 월드 모델(Counterfactual World Model, CWM) 패러다임에서 영감을 받아, 다음 프레임 예측기에 작은 추적자(tracer) 섭동을 주입하고 그 전파를 추적함으로써 점별 대응 관계를 얻을 수 있다는 아이디어를 생성 비디오 모델로 확장합니다. 여러 인기 있는 아키텍처를 탐색한 결과, 이러한 방식으로 성공적인 제로샷 흐름 추출에는 세 가지 모델 특성이 도움이 된다는 것을 발견했습니다: (1) 미래 프레임의 분포적 예측(흐릿하거나 노이즈가 있는 출력을 피함); (2) 각 시공간 패치를 독립적으로 처리하는 분리된 잠재 변수; (3) 미래 픽셀의 어떤 부분 집합에도 조건을 걸 수 있는 랜덤 액세스 디코딩. 이러한 특성들은 최근의 로컬 랜덤 액세스 시퀀스(Local Random Access Sequence, LRAS) 아키텍처에서 독특하게 나타납니다. LRAS를 기반으로, 우리는 KL-추적(KL-tracing)이라는 새로운 테스트 시간 절차를 제안합니다: 첫 번째 프레임에 국소적인 섭동을 주입하고, 모델을 한 단계 롤아웃한 후, 섭동된 예측 분포와 섭동되지 않은 예측 분포 간의 쿨백-라이블러 발산(Kullback-Leibler divergence)을 계산합니다. 흐름 특화 미세 조정 없이도, 우리의 방법은 실제 세계의 TAP-Vid DAVIS 데이터셋(엔드포인트 오류에서 16.6% 상대적 개선)과 합성 TAP-Vid Kubric 데이터셋(4.7% 상대적 개선)에서 최신 모델을 능가합니다. 우리의 결과는 제어 가능한 생성 비디오 모델의 카운터팩추얼 프롬프팅이 고품질 흐름을 위한 지도 학습 또는 광도 손실 접근법에 대한 확장 가능하고 효과적인 대안임을 시사합니다.
English
Extracting optical flow from videos remains a core computer vision problem.
Motivated by the success of large general-purpose models, we ask whether frozen
self-supervised video models trained only for future frame prediction can be
prompted, without fine-tuning, to output flow. Prior work reading out depth or
illumination from video generators required fine-tuning, which is impractical
for flow where labels are scarce and synthetic datasets suffer from a
sim-to-real gap. Inspired by the Counterfactual World Model (CWM) paradigm,
which can obtain point-wise correspondences by injecting a small tracer
perturbation into a next-frame predictor and tracking its propagation, we
extend this idea to generative video models. We explore several popular
architectures and find that successful zero-shot flow extraction in this manner
is aided by three model properties: (1) distributional prediction of future
frames (avoiding blurry or noisy outputs); (2) factorized latents that treat
each spatio-temporal patch independently; and (3) random-access decoding that
can condition on any subset of future pixels. These properties are uniquely
present in the recent Local Random Access Sequence (LRAS) architecture.
Building on LRAS, we propose KL-tracing: a novel test-time procedure that
injects a localized perturbation into the first frame, rolls out the model one
step, and computes the Kullback-Leibler divergence between perturbed and
unperturbed predictive distributions. Without any flow-specific fine-tuning,
our method outperforms state-of-the-art models on real-world TAP-Vid DAVIS
dataset (16.6% relative improvement for endpoint error) and synthetic TAP-Vid
Kubric (4.7% relative improvement). Our results indicate that counterfactual
prompting of controllable generative video models is a scalable and effective
alternative to supervised or photometric-loss approaches for high-quality flow.