Diffusie Kent Transparantie: Hergebruik van Videodiffusie voor Diepte- en Normaalschatting van Transparante Objecten
Diffusion Knows Transparency: Repurposing Video Diffusion for Transparent Object Depth and Normal Estimation
December 29, 2025
Auteurs: Shaocong Xu, Songlin Wei, Qizhe Wei, Zheng Geng, Hong Li, Licheng Shen, Qianpu Sun, Shu Han, Bin Ma, Bohan Li, Chongjie Ye, Yuhang Zheng, Nan Wang, Saining Zhang, Hao Zhao
cs.AI
Samenvatting
Doorzichtige objecten blijven berucht moeilijk voor perceptiesystemen: breking, reflectie en transmissie doorbreken de aannames achter stereo, ToF en puur discriminerende monocular diepteschatting, wat leidt tot gaten en tijdelijk instabiele schattingen. Onze belangrijkste observatie is dat moderne videodiffusiemodellen al overtuigende transparante fenomenen synthetiseren, wat suggereert dat zij de optische regels hebben geïnternaliseerd. Wij bouwden TransPhy3D, een synthetische videocorpus van transparante/reflecterende scènes: 11.000 sequenties gerenderd met Blender/Cycles. Scènes zijn samengesteld uit een gecureerde bank van categorie-rijke statische assets en vorm-rijke procedurele assets, gekoppeld aan glas-/plastic-/metalmaterialen. Wij renderen RGB + diepte + normalen met fysiek gebaseerde raytracing en OptiX-denoising. Uitgaande van een groot videodiffusiemodel, leren wij een video-naar-video-vertaler voor diepte (en normalen) via lichtgewicht LoRA-adaptermodules. Tijdens training concateneren wij RGB- en (ruis)dieptelatenten in de DiT-backbone en co-trainen op TransPhy3D en bestaande framegewijze synthetische datasets, wat temporeel consistente voorspellingen oplevert voor invoervideo's van willekeurige lengte. Het resulterende model, DKT, behaalt zero-shot state-of-the-art (SOTA) op realistische en synthetische videobenchmarks met transparantie: ClearPose, DREDS (CatKnown/CatNovel) en TransPhy3D-Test. Het verbetert nauwkeurigheid en temporele consistentie ten opzichte van sterke image/video-baselines, en een normalenvariant behaalt de beste video-normalenschattingsresultaten op ClearPose. Een compacte 1.3B-versie draait op ~0.17 s/frame. Geïntegreerd in een grijpstack, verhoogt DKT's diepte de slagingspercentages voor doorschijnende, reflecterende en diffuse oppervlakken, en overtreft eerdere schatters. Gezamenlijk ondersteunen deze resultaten een bredere claim: "Diffusie kent transparantie." Generatieve videopriors kunnen efficiënt en labelvrij worden hergebruikt voor robuuste, temporeel coherente perceptie voor uitdagende real-world manipulatie.
English
Transparent objects remain notoriously hard for perception systems: refraction, reflection and transmission break the assumptions behind stereo, ToF and purely discriminative monocular depth, causing holes and temporally unstable estimates. Our key observation is that modern video diffusion models already synthesize convincing transparent phenomena, suggesting they have internalized the optical rules. We build TransPhy3D, a synthetic video corpus of transparent/reflective scenes: 11k sequences rendered with Blender/Cycles. Scenes are assembled from a curated bank of category-rich static assets and shape-rich procedural assets paired with glass/plastic/metal materials. We render RGB + depth + normals with physically based ray tracing and OptiX denoising. Starting from a large video diffusion model, we learn a video-to-video translator for depth (and normals) via lightweight LoRA adapters. During training we concatenate RGB and (noisy) depth latents in the DiT backbone and co-train on TransPhy3D and existing frame-wise synthetic datasets, yielding temporally consistent predictions for arbitrary-length input videos. The resulting model, DKT, achieves zero-shot SOTA on real and synthetic video benchmarks involving transparency: ClearPose, DREDS (CatKnown/CatNovel), and TransPhy3D-Test. It improves accuracy and temporal consistency over strong image/video baselines, and a normal variant sets the best video normal estimation results on ClearPose. A compact 1.3B version runs at ~0.17 s/frame. Integrated into a grasping stack, DKT's depth boosts success rates across translucent, reflective and diffuse surfaces, outperforming prior estimators. Together, these results support a broader claim: "Diffusion knows transparency." Generative video priors can be repurposed, efficiently and label-free, into robust, temporally coherent perception for challenging real-world manipulation.