ChatPaper.aiChatPaper

확산 모델이 투명도를 이해하다: 비디오 확산 모델을 활용한 투명 객체 깊이 및 법선 추정

Diffusion Knows Transparency: Repurposing Video Diffusion for Transparent Object Depth and Normal Estimation

December 29, 2025
저자: Shaocong Xu, Songlin Wei, Qizhe Wei, Zheng Geng, Hong Li, Licheng Shen, Qianpu Sun, Shu Han, Bin Ma, Bohan Li, Chongjie Ye, Yuhang Zheng, Nan Wang, Saining Zhang, Hao Zhao
cs.AI

초록

투명 물체는 인식 시스템에 여전히 매우 어려운 과제로 남아 있습니다: 굴절, 반사 및 투과는 스테레오, ToF 및 순수하게 구별적인 단안 깊이 인식의 기본 가정을 깨뜨려 홀이 생기고 시간적으로 불안정한 추정치를 초래합니다. 우리의 핵심 관찰은 현대 비디오 확산 모델이 이미 설득력 있는 투명 현상을 합성한다는 점으로, 이는 그들이 광학 법칙을 내재화했음을 시사합니다. 우리는 투명/반사 장면의 합성 비디오 코퍼스인 TransPhy3D를 구축했습니다: Blender/Cycles로 렌더링된 11,000개의 시퀀스입니다. 장면은 다양한 범주의 정적 자산과 풍부한 형태의 절차적 자산으로 구성된 큐레이팅된 자산 뱅크를 유리/플라스틱/금속 재질과 결합하여 조립합니다. 우리는 물리 기반 레이 트레이싱과 OptiX 디노이징을 통해 RGB + 깊이 + 법선을 렌더링합니다. 대규모 비디오 확산 모델을 시작점으로, 경량 LoRA 어댑터를 통해 깊이(및 법선)용 비디오-투-비디오 변환기를 학습합니다. 학습 시 DiT 백본에서 RGB와 (노이즈가 있는) 깊이 잠재 변수를 연결하고 TransPhy3D와 기존 프레임 단위 합성 데이터셋에 대해 공동 학습하여 임의 길이 입력 비디오에 대해 시간적으로 일관된 예측을 생성합니다. 결과 모델인 DKT는 투명도가 관련된 실제 및 합성 비디오 벤치마크(ClearPose, DREDS(CatKnown/CatNovel), TransPhy3D-Test)에서 제로-샷 SOTA를 달성합니다. 이는 강력한 이미지/비디오 베이스라인보다 정확도와 시간적 일관성을 향상시키며, 법선 변형은 ClearPose에서 최고의 비디오 법선 추정 결과를 기록합니다. 소규모 1.3B 버전은 약 0.17초/프레임으로 실행됩니다. 그rasping 스택에 통합된 DKT의 깊이 추정은 반투명, 반사 및 난반사 표면 전반에 걸쳐 성공률을 높여 기존 추정기를 능가합니다. 종합적으로, 이러한 결과는 "확산은 투명도를 안다"는 더 넓은 주장을 지지합니다. 생성적 비디오 사전 지식은 효율적이고 레이블 없이도 도전적인 실제 조작을 위한 강력하고 시간적으로 일관된 인식으로 재목적화될 수 있습니다.
English
Transparent objects remain notoriously hard for perception systems: refraction, reflection and transmission break the assumptions behind stereo, ToF and purely discriminative monocular depth, causing holes and temporally unstable estimates. Our key observation is that modern video diffusion models already synthesize convincing transparent phenomena, suggesting they have internalized the optical rules. We build TransPhy3D, a synthetic video corpus of transparent/reflective scenes: 11k sequences rendered with Blender/Cycles. Scenes are assembled from a curated bank of category-rich static assets and shape-rich procedural assets paired with glass/plastic/metal materials. We render RGB + depth + normals with physically based ray tracing and OptiX denoising. Starting from a large video diffusion model, we learn a video-to-video translator for depth (and normals) via lightweight LoRA adapters. During training we concatenate RGB and (noisy) depth latents in the DiT backbone and co-train on TransPhy3D and existing frame-wise synthetic datasets, yielding temporally consistent predictions for arbitrary-length input videos. The resulting model, DKT, achieves zero-shot SOTA on real and synthetic video benchmarks involving transparency: ClearPose, DREDS (CatKnown/CatNovel), and TransPhy3D-Test. It improves accuracy and temporal consistency over strong image/video baselines, and a normal variant sets the best video normal estimation results on ClearPose. A compact 1.3B version runs at ~0.17 s/frame. Integrated into a grasping stack, DKT's depth boosts success rates across translucent, reflective and diffuse surfaces, outperforming prior estimators. Together, these results support a broader claim: "Diffusion knows transparency." Generative video priors can be repurposed, efficiently and label-free, into robust, temporally coherent perception for challenging real-world manipulation.
PDF321December 31, 2025