A Difusão Conhece a Transparência: Reaproveitando a Difusão de Vídeo para Estimativa de Profundidade e Normais em Objetos Transparentes

Resumo

Objetos transparentes permanecem notoriamente difíceis para sistemas de percepção: a refração, reflexão e transmissão quebram as premissas por trás de estereoscopia, ToF (tempo de voo) e métodos puramente discriminativos de profundidade monoculares, causando buracos e estimativas temporalmente instáveis. Nossa observação fundamental é que os modelos modernos de difusão de vídeo já sintetizam fenômenos transparentes convincentes, sugerindo que internalizaram as regras ópticas. Construímos o TransPhy3D, um corpus sintético de vídeos de cenas transparentes/reflexivas: 11 mil sequências renderizadas com Blender/Cycles. As cenas são montadas a partir de um banco curado de objetos estáticos ricos em categorias e objetos procedurais ricos em formas, combinados com materiais de vidro/plástico/metal. Renderizamos RGB + profundidade + normais com ray tracing fisicamente baseado e remoção de ruído OptiX. Partindo de um grande modelo de difusão de vídeo, aprendemos um tradutor de vídeo-para-vídeo para profundidade (e normais) por meio de adaptadores leves LoRA. Durante o treinamento, concatenamos os latentes de RGB e profundidade (com ruído) no *backbone* DiT e co-treinamos no TransPhy3D e em conjuntos de dados sintéticos *frame-wise* existentes, resultando em previsões temporalmente consistentes para vídeos de entrada de comprimento arbitrário. O modelo resultante, DKT, atinge o estado da arte (SOTA) *zero-shot* em *benchmarks* de vídeo real e sintético envolvendo transparência: ClearPose, DREDS (CatKnown/CatNovel) e TransPhy3D-Test. Ele melhora a precisão e a consistência temporal em relação às linhas de base fortes de imagem/vídeo, e uma variante para normais estabelece os melhores resultados de estimativa de normais em vídeo no ClearPose. Uma versão compacta de 1,3B executa a ~0,17 s/ *frame*. Integrado a uma pilha de manipulação, a profundidade do DKT aumenta as taxas de sucesso em superfícies translúcidas, reflexivas e difusas, superando estimadores anteriores. Juntos, esses resultados apoiam uma afirmação mais ampla: "A difusão conhece a transparência". *Priors* generativos de vídeo podem ser reaproveitados, de forma eficiente e sem rótulos (*label-free*), para uma percepção robusta e temporalmente coerente para manipulação desafiadora do mundo real.

English

Transparent objects remain notoriously hard for perception systems: refraction, reflection and transmission break the assumptions behind stereo, ToF and purely discriminative monocular depth, causing holes and temporally unstable estimates. Our key observation is that modern video diffusion models already synthesize convincing transparent phenomena, suggesting they have internalized the optical rules. We build TransPhy3D, a synthetic video corpus of transparent/reflective scenes: 11k sequences rendered with Blender/Cycles. Scenes are assembled from a curated bank of category-rich static assets and shape-rich procedural assets paired with glass/plastic/metal materials. We render RGB + depth + normals with physically based ray tracing and OptiX denoising. Starting from a large video diffusion model, we learn a video-to-video translator for depth (and normals) via lightweight LoRA adapters. During training we concatenate RGB and (noisy) depth latents in the DiT backbone and co-train on TransPhy3D and existing frame-wise synthetic datasets, yielding temporally consistent predictions for arbitrary-length input videos. The resulting model, DKT, achieves zero-shot SOTA on real and synthetic video benchmarks involving transparency: ClearPose, DREDS (CatKnown/CatNovel), and TransPhy3D-Test. It improves accuracy and temporal consistency over strong image/video baselines, and a normal variant sets the best video normal estimation results on ClearPose. A compact 1.3B version runs at ~0.17 s/frame. Integrated into a grasping stack, DKT's depth boosts success rates across translucent, reflective and diffuse surfaces, outperforming prior estimators. Together, these results support a broader claim: "Diffusion knows transparency." Generative video priors can be repurposed, efficiently and label-free, into robust, temporally coherent perception for challenging real-world manipulation.

A Difusão Conhece a Transparência: Reaproveitando a Difusão de Vídeo para Estimativa de Profundidade e Normais em Objetos Transparentes

Diffusion Knows Transparency: Repurposing Video Diffusion for Transparent Object Depth and Normal Estimation

Resumo

Support