La diffusion connaît la transparence : réaffectation de la diffusion vidéo à l'estimation de la profondeur et des normales des objets transparents
Diffusion Knows Transparency: Repurposing Video Diffusion for Transparent Object Depth and Normal Estimation
December 29, 2025
papers.authors: Shaocong Xu, Songlin Wei, Qizhe Wei, Zheng Geng, Hong Li, Licheng Shen, Qianpu Sun, Shu Han, Bin Ma, Bohan Li, Chongjie Ye, Yuhang Zheng, Nan Wang, Saining Zhang, Hao Zhao
cs.AI
papers.abstract
Les objets transparents restent notoirement difficiles pour les systèmes de perception : la réfraction, la réflexion et la transmission brisent les hypothèses sous-jacentes à la stéréo, au temps de vol (ToF) et aux méthodes de profondeur monoculaire purement discriminatives, entraînant des trous et des estimations temporellement instables. Notre observation clé est que les modèles de diffusion vidéo modernes synthétisent déjà des phénomènes transparents convaincants, suggérant qu'ils ont internalisé les règles optiques. Nous construisons TransPhy3D, un corpus vidéo synthétique de scènes transparentes/réfléchissantes : 11 000 séquences rendues avec Blender/Cycles. Les scènes sont assemblées à partir d'une banque organisée d'assets statiques riches en catégories et d'assets procéduraux riches en formes, associés à des matériaux verre/plastique/métal. Nous rendons RVB + profondeur + normales par lancer de rayons physique et par débruiteur OptiX. En partant d'un grand modèle de diffusion vidéo, nous apprenons un traducteur vidéo-à-vidéo pour la profondeur (et les normales) via des adaptateurs LoRA légers. Pendant l'entraînement, nous concaténons les latentes RVB et de profondeur (bruitée) dans le backbone DiT et co-entraînons sur TransPhy3D et des ensembles de données synthétiques image par image existants, produisant des prédictions temporellement cohérentes pour des vidéos d'entrée de longueur arbitraire. Le modèle résultant, DKT, atteint l'état de l'art en zero-shot sur des benchmarks vidéo réels et synthétiques impliquant la transparence : ClearPose, DREDS (CatKnown/CatNovel) et TransPhy3D-Test. Il améliore la précision et la cohérence temporelle par rapport à des bases de référence solides pour l'image/la vidéo, et une variante pour les normales établit les meilleurs résultats pour l'estimation vidéo de normales sur ClearPose. Une version compacte de 1,3 Md de paramètres s'exécute en ~0,17 s/image. Intégré dans une pile de préhension, la profondeur de DKT augmente les taux de réussite sur des surfaces translucides, réfléchissantes et diffuses, surpassant les estimateurs antérieurs. Ensemble, ces résultats étayent une affirmation plus large : « La diffusion connaît la transparence. » Les préalables génératifs vidéo peuvent être réutilisés, efficacement et sans étiquettes, pour une perception robuste et temporellement cohérente destinée à la manipulation en monde réel difficile.
English
Transparent objects remain notoriously hard for perception systems: refraction, reflection and transmission break the assumptions behind stereo, ToF and purely discriminative monocular depth, causing holes and temporally unstable estimates. Our key observation is that modern video diffusion models already synthesize convincing transparent phenomena, suggesting they have internalized the optical rules. We build TransPhy3D, a synthetic video corpus of transparent/reflective scenes: 11k sequences rendered with Blender/Cycles. Scenes are assembled from a curated bank of category-rich static assets and shape-rich procedural assets paired with glass/plastic/metal materials. We render RGB + depth + normals with physically based ray tracing and OptiX denoising. Starting from a large video diffusion model, we learn a video-to-video translator for depth (and normals) via lightweight LoRA adapters. During training we concatenate RGB and (noisy) depth latents in the DiT backbone and co-train on TransPhy3D and existing frame-wise synthetic datasets, yielding temporally consistent predictions for arbitrary-length input videos. The resulting model, DKT, achieves zero-shot SOTA on real and synthetic video benchmarks involving transparency: ClearPose, DREDS (CatKnown/CatNovel), and TransPhy3D-Test. It improves accuracy and temporal consistency over strong image/video baselines, and a normal variant sets the best video normal estimation results on ClearPose. A compact 1.3B version runs at ~0.17 s/frame. Integrated into a grasping stack, DKT's depth boosts success rates across translucent, reflective and diffuse surfaces, outperforming prior estimators. Together, these results support a broader claim: "Diffusion knows transparency." Generative video priors can be repurposed, efficiently and label-free, into robust, temporally coherent perception for challenging real-world manipulation.