拡散モデルは透明性を理解する:映像拡散モデルを透明物体の深度・法線推定に転用する
Diffusion Knows Transparency: Repurposing Video Diffusion for Transparent Object Depth and Normal Estimation
December 29, 2025
著者: Shaocong Xu, Songlin Wei, Qizhe Wei, Zheng Geng, Hong Li, Licheng Shen, Qianpu Sun, Shu Han, Bin Ma, Bohan Li, Chongjie Ye, Yuhang Zheng, Nan Wang, Saining Zhang, Hao Zhao
cs.AI
要旨
透明物体は、知覚システムにとって依然として非常に困難な対象である。屈折、反射、透過はステレオ視覚、ToF(飛行時間法)、純粋に識別的な単眼深度推定の前提を崩し、深度マップの欠損や時間的に不安定な推定を引き起こす。我々の重要な発見は、現代のビデオ拡散モデルが既に説得力のある透明現象を合成しており、光学法則を内部化していることを示唆している点である。我々はTransPhy3Dという透明/反射シーンの合成ビデオコーパスを構築した:Blender/Cyclesでレンダリングされた11,000シーケンスである。シーンは、カテゴリ豊富な静的アセットと形状豊富なプロシージャルアセットを厳選して組み合わせ、ガラス/プラスチック/金属材質を適用して構築される。物理ベースレイトレーシングとOptiXデノイジングにより、RGB+深度+法線をレンダリングする。大規模ビデオ拡散モデルを出発点とし、軽量なLoRAアダプターを介して深度(および法線)へのビデオtoビデオ変換器を学習する。訓練時には、DiTバックボーンでRGBと(ノイズ付き)深度の潜在表現を連結し、TransPhy3Dと既存のフレーム単位の合成データセットで共同訓練を行うことで、任意の長さの入力ビデオに対する時間的一貫性のある予測を実現する。結果として得られるモデルDKTは、透明物体を含む実写および合成ビデオベンチマーク(ClearPose、DREDS(CatKnown/CatNovel)、TransPhy3D-Test)において、ゼロショットでSOTAを達成する。強力な画像/ビデオベースラインと比較して精度と時間的一貫性を向上させ、法線推定バリアントはClearPoseで最高のビデオ法線推定結果を記録する。コンパクトな13億パラメータ版は約0.17秒/フレームで動作する把持システムに統合すると、DKTの深度推定は半透明、反射、拡散表面全体で把持成功率を向上させ、従来の推定器を上回る。これらの結果は、「拡散モデルは透明性を理解している」というより広い主張を支持する。生成的ビデオ事前分布は、効率的かつラベル不要で、困難な実世界マニピュレーションのための頑健で時間的にコヒーレントな知覚へと転用できる。
English
Transparent objects remain notoriously hard for perception systems: refraction, reflection and transmission break the assumptions behind stereo, ToF and purely discriminative monocular depth, causing holes and temporally unstable estimates. Our key observation is that modern video diffusion models already synthesize convincing transparent phenomena, suggesting they have internalized the optical rules. We build TransPhy3D, a synthetic video corpus of transparent/reflective scenes: 11k sequences rendered with Blender/Cycles. Scenes are assembled from a curated bank of category-rich static assets and shape-rich procedural assets paired with glass/plastic/metal materials. We render RGB + depth + normals with physically based ray tracing and OptiX denoising. Starting from a large video diffusion model, we learn a video-to-video translator for depth (and normals) via lightweight LoRA adapters. During training we concatenate RGB and (noisy) depth latents in the DiT backbone and co-train on TransPhy3D and existing frame-wise synthetic datasets, yielding temporally consistent predictions for arbitrary-length input videos. The resulting model, DKT, achieves zero-shot SOTA on real and synthetic video benchmarks involving transparency: ClearPose, DREDS (CatKnown/CatNovel), and TransPhy3D-Test. It improves accuracy and temporal consistency over strong image/video baselines, and a normal variant sets the best video normal estimation results on ClearPose. A compact 1.3B version runs at ~0.17 s/frame. Integrated into a grasping stack, DKT's depth boosts success rates across translucent, reflective and diffuse surfaces, outperforming prior estimators. Together, these results support a broader claim: "Diffusion knows transparency." Generative video priors can be repurposed, efficiently and label-free, into robust, temporally coherent perception for challenging real-world manipulation.