DVD: Estimación Determinista de Profundidad de Vídeo con Priors Generativos
DVD: Deterministic Video Depth Estimation with Generative Priors
March 12, 2026
Autores: Hongfei Zhang, Harold Haodong Chen, Chenfei Liao, Jing He, Zixin Zhang, Haodong Li, Yihao Liang, Kanghao Chen, Bin Ren, Xu Zheng, Shuai Yang, Kun Zhou, Yinchuan Li, Nicu Sebe, Ying-Cong Chen
cs.AI
Resumen
La estimación de profundidad en vídeos existente enfrenta una disyuntiva fundamental: los modelos generativos sufren de alucinaciones geométricas estocásticas y deriva de escala, mientras que los modelos discriminativos requieren conjuntos de datos etiquetados masivos para resolver ambigüedades semánticas. Para superar este punto muerto, presentamos DVD, el primer marco que adapta determinísticamente modelos de difusión de vídeo preentrenados en regresores de profundidad de pasada única. Específicamente, DVD presenta tres diseños centrales: (i) reutilizar el paso de tiempo de difusión como ancla estructural para equilibrar la estabilidad global con los detalles de alta frecuencia; (ii) rectificación de la variedad latente (LMR) para mitigar el suavizado excesivo inducido por la regresión, aplicando restricciones diferenciales para restaurar límites nítidos y movimiento coherente; y (iii) coherencia afín global, una propiedad inherente que acota la divergencia entre ventanas, lo que permite inferencia en vídeos largos sin necesidad de una compleja alineación temporal. Experimentos exhaustivos demuestran que DVD logra un rendimiento de cero-shot state-of-the-art en diversos benchmarks. Además, DVD desbloquea exitosamente los profundos conocimientos geométricos implícitos en los modelos fundacionales de vídeo utilizando 163 veces menos datos específicos de la tarea que los principales baselines. Cabe destacar que liberamos completamente nuestra canalización, proporcionando todo el conjunto de entrenamiento para la estimación de profundidad en vídeo state-of-the-art para beneficiar a la comunidad de código abierto.
English
Existing video depth estimation faces a fundamental trade-off: generative models suffer from stochastic geometric hallucinations and scale drift, while discriminative models demand massive labeled datasets to resolve semantic ambiguities. To break this impasse, we present DVD, the first framework to deterministically adapt pre-trained video diffusion models into single-pass depth regressors. Specifically, DVD features three core designs: (i) repurposing the diffusion timestep as a structural anchor to balance global stability with high-frequency details; (ii) latent manifold rectification (LMR) to mitigate regression-induced over-smoothing, enforcing differential constraints to restore sharp boundaries and coherent motion; and (iii) global affine coherence, an inherent property bounding inter-window divergence, which enables seamless long-video inference without requiring complex temporal alignment. Extensive experiments demonstrate that DVD achieves state-of-the-art zero-shot performance across benchmarks. Furthermore, DVD successfully unlocks the profound geometric priors implicit in video foundation models using 163x less task-specific data than leading baselines. Notably, we fully release our pipeline, providing the whole training suite for SOTA video depth estimation to benefit the open-source community.