La Difusión Conoce la Transparencia: Reutilización de la Difusión de Video para la Estimación de Profundidad y Normales en Objetos Transparentes
Diffusion Knows Transparency: Repurposing Video Diffusion for Transparent Object Depth and Normal Estimation
December 29, 2025
Autores: Shaocong Xu, Songlin Wei, Qizhe Wei, Zheng Geng, Hong Li, Licheng Shen, Qianpu Sun, Shu Han, Bin Ma, Bohan Li, Chongjie Ye, Yuhang Zheng, Nan Wang, Saining Zhang, Hao Zhao
cs.AI
Resumen
Los objetos transparentes siguen siendo notoriamente difíciles para los sistemas de percepción: la refracción, la reflexión y la transmisión rompen los supuestos detrás de la estereoscopía, el tiempo de vuelo (ToF) y la profundidad monocular puramente discriminativa, causando huecos y estimaciones temporalmente inestables. Nuestra observación clave es que los modelos modernos de difusión de video ya sintetizan fenómenos transparentes convincentes, lo que sugiere que han internalizado las reglas ópticas. Construimos TransPhy3D, un corpus de video sintético de escenas transparentes/reflectantes: 11k secuencias renderizadas con Blender/Cycles. Las escenas se ensamblan a partir de un banco seleccionado de activos estáticos ricos en categorías y activos procedurales ricos en formas, emparejados con materiales de vidrio/plástico/metal. Renderizamos RGB + profundidad + normales con trazado de rayos basado en física y eliminación de ruido OptiX. Partiendo de un modelo de difusión de video grande, aprendemos un traductor de video a video para profundidad (y normales) mediante adaptadores LoRA ligeros. Durante el entrenamiento, concatenamos los latentes RGB y de profundidad (con ruido) en el backbone DiT y co-entrenamos en TransPhy3D y conjuntos de datos sintéticos frame-wise existentes, obteniendo predicciones temporalmente consistentes para videos de entrada de longitud arbitraria. El modelo resultante, DKT, logra estado del arte (SOTA) zero-shot en benchmarks de video real y sintético que involucran transparencia: ClearPose, DREDS (CatKnown/CatNovel) y TransPhy3D-Test. Mejora la precisión y la consistencia temporal sobre líneas base fuertes de imagen/video, y una variante para normales establece los mejores resultados de estimación de normales en video en ClearPose. Una versión compacta de 1.3B funciona a ~0.17 s/fotograma. Integrado en una pila de agarre, la profundidad de DKT aumenta las tasas de éxito en superficies translúcidas, reflectantes y difusas, superando a estimadores anteriores. En conjunto, estos resultados respaldan una afirmación más amplia: "La difusión conoce la transparencia". Los priores generativos de video pueden reutilizarse, de manera eficiente y sin etiquetas, para una percepción robusta y temporalmente coherente destinada a la manipulación en entornos reales desafiantes.
English
Transparent objects remain notoriously hard for perception systems: refraction, reflection and transmission break the assumptions behind stereo, ToF and purely discriminative monocular depth, causing holes and temporally unstable estimates. Our key observation is that modern video diffusion models already synthesize convincing transparent phenomena, suggesting they have internalized the optical rules. We build TransPhy3D, a synthetic video corpus of transparent/reflective scenes: 11k sequences rendered with Blender/Cycles. Scenes are assembled from a curated bank of category-rich static assets and shape-rich procedural assets paired with glass/plastic/metal materials. We render RGB + depth + normals with physically based ray tracing and OptiX denoising. Starting from a large video diffusion model, we learn a video-to-video translator for depth (and normals) via lightweight LoRA adapters. During training we concatenate RGB and (noisy) depth latents in the DiT backbone and co-train on TransPhy3D and existing frame-wise synthetic datasets, yielding temporally consistent predictions for arbitrary-length input videos. The resulting model, DKT, achieves zero-shot SOTA on real and synthetic video benchmarks involving transparency: ClearPose, DREDS (CatKnown/CatNovel), and TransPhy3D-Test. It improves accuracy and temporal consistency over strong image/video baselines, and a normal variant sets the best video normal estimation results on ClearPose. A compact 1.3B version runs at ~0.17 s/frame. Integrated into a grasping stack, DKT's depth boosts success rates across translucent, reflective and diffuse surfaces, outperforming prior estimators. Together, these results support a broader claim: "Diffusion knows transparency." Generative video priors can be repurposed, efficiently and label-free, into robust, temporally coherent perception for challenging real-world manipulation.