ChatPaper.aiChatPaper

La Diffusione Conosce la Trasparenza: Riuso della Diffusione Video per la Stima di Profondità e Normali di Oggetti Trasparenti

Diffusion Knows Transparency: Repurposing Video Diffusion for Transparent Object Depth and Normal Estimation

December 29, 2025
Autori: Shaocong Xu, Songlin Wei, Qizhe Wei, Zheng Geng, Hong Li, Licheng Shen, Qianpu Sun, Shu Han, Bin Ma, Bohan Li, Chongjie Ye, Yuhang Zheng, Nan Wang, Saining Zhang, Hao Zhao
cs.AI

Abstract

Gli oggetti trasparenti rimangono notoriamente difficili per i sistemi di percezione: rifrazione, riflessione e trasmissione infrangono le assunzioni alla base della stereo visione, del Time-of-Flight e della profondità monoculare puramente discriminativa, causando buchi e stime temporalmente instabili. La nostra osservazione chiave è che i moderni modelli di diffusione video sintetizzano già fenomeni trasparenti convincenti, suggerendo che abbiano internalizzato le regole ottiche. Costruiamo TransPhy3D, un corpus video sintetico di scene trasparenti/riflettenti: 11k sequenze renderizzate con Blender/Cycles. Le scene sono assemblate da una libreria curata di asset statici ricchi di categorie e asset procedurali ricchi di forme, abbinati a materiali vetro/plastica/metallo. Renderizziamo RGB + profondità + normali con ray tracing fisicamente basato e denoising OptiX. Partendo da un grande modello di diffusione video, apprendiamo un traduttore video-to-video per la profondità (e le normali) tramite adattatori LoRA leggeri. Durante l'addestramento concateniamo i latenti RGB e di profondità (rumorosa) nel backbone DiT e co-addestriamo su TransPhy3D e dataset sintetici frame-wise esistenti, ottenendo previsioni temporalmente coerenti per video di input di lunghezza arbitraria. Il modello risultante, DKT, raggiunge lo stato dell'arte zero-shot su benchmark video reali e sintetici che coinvolgono trasparenza: ClearPose, DREDS (CatKnown/CatNovel) e TransPhy3D-Test. Migliora accuratezza e coerenza temporale rispetto a baseline robuste per immagini/video, e una variante per le normali stabilisce i migliori risultati per la stima video delle normali su ClearPose. Una versione compatta da 1.3B opera a ~0.17 s/frame. Integrato in uno stack di presa, la profondità di DKT aumenta i tassi di successo su superfici traslucide, riflettenti e diffuse, superando gli stimatori precedenti. Insieme, questi risultati supportano un'affermazione più ampia: "La diffusione conosce la trasparenza". I prior generativi video possono essere riproposti, in modo efficiente e senza etichette, per una percezione robusta e temporalmente coerente per manipolazioni nel mondo reale impegnative.
English
Transparent objects remain notoriously hard for perception systems: refraction, reflection and transmission break the assumptions behind stereo, ToF and purely discriminative monocular depth, causing holes and temporally unstable estimates. Our key observation is that modern video diffusion models already synthesize convincing transparent phenomena, suggesting they have internalized the optical rules. We build TransPhy3D, a synthetic video corpus of transparent/reflective scenes: 11k sequences rendered with Blender/Cycles. Scenes are assembled from a curated bank of category-rich static assets and shape-rich procedural assets paired with glass/plastic/metal materials. We render RGB + depth + normals with physically based ray tracing and OptiX denoising. Starting from a large video diffusion model, we learn a video-to-video translator for depth (and normals) via lightweight LoRA adapters. During training we concatenate RGB and (noisy) depth latents in the DiT backbone and co-train on TransPhy3D and existing frame-wise synthetic datasets, yielding temporally consistent predictions for arbitrary-length input videos. The resulting model, DKT, achieves zero-shot SOTA on real and synthetic video benchmarks involving transparency: ClearPose, DREDS (CatKnown/CatNovel), and TransPhy3D-Test. It improves accuracy and temporal consistency over strong image/video baselines, and a normal variant sets the best video normal estimation results on ClearPose. A compact 1.3B version runs at ~0.17 s/frame. Integrated into a grasping stack, DKT's depth boosts success rates across translucent, reflective and diffuse surfaces, outperforming prior estimators. Together, these results support a broader claim: "Diffusion knows transparency." Generative video priors can be repurposed, efficiently and label-free, into robust, temporally coherent perception for challenging real-world manipulation.
PDF453March 11, 2026