Diffusion kennt Transparenz: Umnutzung von Video-Diffusion zur Schätzung von Tiefe und Normalen transparenter Objekte
Diffusion Knows Transparency: Repurposing Video Diffusion for Transparent Object Depth and Normal Estimation
December 29, 2025
papers.authors: Shaocong Xu, Songlin Wei, Qizhe Wei, Zheng Geng, Hong Li, Licheng Shen, Qianpu Sun, Shu Han, Bin Ma, Bohan Li, Chongjie Ye, Yuhang Zheng, Nan Wang, Saining Zhang, Hao Zhao
cs.AI
papers.abstract
Durchsichtige Objekte stellen für Wahrnehmungssysteme nach wie vor eine große Herausforderung dar: Brechung, Reflexion und Transmission verletzen die Annahmen von Stereo-, ToF- und rein diskriminativer monokularer Tiefenschätzung, was zu Lücken und zeitlich instabilen Schätzungen führt. Unsere zentrale Beobachtung ist, dass moderne Video-Diffusionsmodelle bereits überzeugende transparente Phänomene synthetisieren, was darauf hindeutet, dass sie die optischen Regeln internalisiert haben. Wir erstellen TransPhy3D, einen synthetischen Videokorpus transparenter/reflektierender Szenen: 11.000 mit Blender/Cycles gerenderte Sequenzen. Die Szenen werden aus einer kuratierten Sammlung kategorienreicher statischer Assets und formenreicher prozeduraler Assets zusammengesetzt, die mit Glas-/Kunststoff-/Metallmaterialien kombiniert werden. Wir rendern RGB + Tiefe + Normalen mittels physikalisch basiertem Raytracing und OptiX-Denoising. Ausgehend von einem großen Video-Diffusionsmodell lernen wir einen Video-zu-Video-Übersetzer für Tiefe (und Normalen) über leichte LoRA-Adapter. Während des Trainings verketten wir RGB- und (verrauschte) Tiefen-Latents im DiT-Backbone und trainieren gemeinsam auf TransPhy3D und bestehenden bildweisen synthetischen Datensätzen, was zeitlich konsistente Vorhersagen für beliebig lange Eingabevideos liefert. Das resultierende Modell, DKT, erreicht Zero-Shot State-of-the-Art auf realen und synthetischen Videobenchmarks, die Transparenz beinhalten: ClearPose, DREDS (CatKnown/CatNovel) und TransPhy3D-Test. Es verbessert Genauigkeit und zeitliche Konsistenz gegenüber starken Bild-/Video-Baselines, und eine Normalen-Variante erzielt die besten Video-Normalenschätzergebnisse auf ClearPose. Eine kompakte 1.3B-Version läuft mit ~0.17 s/Frame. Integriert in einen Greifstack erhöht DKT's Tiefenschätzung die Erfolgsraten bei durchscheinenden, reflektierenden und diffusen Oberflächen und übertrifft bisherige Schätzer. Zusammengenommen unterstützen diese Ergebnisse eine weiterreichende Behauptung: "Diffusion versteht Transparenz." Generative Video-Priors können effizient und ohne Label robuste, zeitlich kohärente Wahrnehmung für anspruchsvolle, reale Manipulationsaufgaben liefern.
English
Transparent objects remain notoriously hard for perception systems: refraction, reflection and transmission break the assumptions behind stereo, ToF and purely discriminative monocular depth, causing holes and temporally unstable estimates. Our key observation is that modern video diffusion models already synthesize convincing transparent phenomena, suggesting they have internalized the optical rules. We build TransPhy3D, a synthetic video corpus of transparent/reflective scenes: 11k sequences rendered with Blender/Cycles. Scenes are assembled from a curated bank of category-rich static assets and shape-rich procedural assets paired with glass/plastic/metal materials. We render RGB + depth + normals with physically based ray tracing and OptiX denoising. Starting from a large video diffusion model, we learn a video-to-video translator for depth (and normals) via lightweight LoRA adapters. During training we concatenate RGB and (noisy) depth latents in the DiT backbone and co-train on TransPhy3D and existing frame-wise synthetic datasets, yielding temporally consistent predictions for arbitrary-length input videos. The resulting model, DKT, achieves zero-shot SOTA on real and synthetic video benchmarks involving transparency: ClearPose, DREDS (CatKnown/CatNovel), and TransPhy3D-Test. It improves accuracy and temporal consistency over strong image/video baselines, and a normal variant sets the best video normal estimation results on ClearPose. A compact 1.3B version runs at ~0.17 s/frame. Integrated into a grasping stack, DKT's depth boosts success rates across translucent, reflective and diffuse surfaces, outperforming prior estimators. Together, these results support a broader claim: "Diffusion knows transparency." Generative video priors can be repurposed, efficiently and label-free, into robust, temporally coherent perception for challenging real-world manipulation.