Диффузия знает прозрачность: перепрофилирование видеодиффузии для оценки глубины и нормалей прозрачных объектов
Diffusion Knows Transparency: Repurposing Video Diffusion for Transparent Object Depth and Normal Estimation
December 29, 2025
Авторы: Shaocong Xu, Songlin Wei, Qizhe Wei, Zheng Geng, Hong Li, Licheng Shen, Qianpu Sun, Shu Han, Bin Ma, Bohan Li, Chongjie Ye, Yuhang Zheng, Nan Wang, Saining Zhang, Hao Zhao
cs.AI
Аннотация
Прозрачные объекты остаются крайне сложными для систем восприятия: преломление, отражение и пропускание света нарушают предпосылки, лежащие в основе стереозрения, Time-of-Flight и чисто дискриминативных монокулярных методов оценки глубины, что приводит к пропускам и временно нестабильным оценкам. Наше ключевое наблюдение заключается в том, что современные модели диффузии видео уже синтезируют убедительные прозрачные явления, что свидетельствует об интериоризации ими оптических закономерностей. Мы создали TransPhy3D, синтетический видеокорпус сцен с пррачными и отражающими объектами: 11 тысяч последовательностей, отрендеренных в Blender/Cycles. Сцены собраны из курируемой базы статических ассетов, богатых категориями, и процедурных ассетов, богатых формами, в сочетании со стеклянными, пластиковыми и металлическими материалами. Мы рендерим RGB + глубина + нормали с помощью физически корректного трассировки лучей и шумоподавления OptiX. Исходя из крупной модели диффузии видео, мы обучаем видео-видео транслятор для карт глубины (и нормалей) с помощью легковесных адаптеров LoRA. Во время обучения мы конкатенируем латентные представления RGB и (зашумленной) глубины в DiT-архитектуре и проводим совместное обучение на TransPhy3D и существующих покадровых синтетических наборах данных, получая временно согласованные предсказания для входных видео произвольной длины. Полученная модель, DKT, достигает state-of-the-art в режиме zero-shot на реальных и синтетических видео-бенчмарках, включающих прозрачность: ClearPose, DREDS (CatKnown/CatNovel) и TransPhy3D-Test. Она повышает точность и временную согласованность по сравнению с сильными изображенческими и видео-базлайнами, а вариант для нормалей устанавливает наилучшие результаты оценки нормалей на видео для ClearPose. Компактная версия на 1.3B параметров работает со скоростью ~0.17 с/кадр. Интегрированная в систему захвата, оценка глубины от DKT повышает процент успеха для translucent, отражающих и диффузных поверхностей, превосходя предыдущие методы оценки. В совокупности эти результаты подтверждают более широкий тезис: "Диффузия знает прозрачность". Генеративные видео-априори могут быть перепрофилированы, эффективно и без разметки, в робастное, временно когерентное восприятие для сложных задач манипуляции в реальном мире.
English
Transparent objects remain notoriously hard for perception systems: refraction, reflection and transmission break the assumptions behind stereo, ToF and purely discriminative monocular depth, causing holes and temporally unstable estimates. Our key observation is that modern video diffusion models already synthesize convincing transparent phenomena, suggesting they have internalized the optical rules. We build TransPhy3D, a synthetic video corpus of transparent/reflective scenes: 11k sequences rendered with Blender/Cycles. Scenes are assembled from a curated bank of category-rich static assets and shape-rich procedural assets paired with glass/plastic/metal materials. We render RGB + depth + normals with physically based ray tracing and OptiX denoising. Starting from a large video diffusion model, we learn a video-to-video translator for depth (and normals) via lightweight LoRA adapters. During training we concatenate RGB and (noisy) depth latents in the DiT backbone and co-train on TransPhy3D and existing frame-wise synthetic datasets, yielding temporally consistent predictions for arbitrary-length input videos. The resulting model, DKT, achieves zero-shot SOTA on real and synthetic video benchmarks involving transparency: ClearPose, DREDS (CatKnown/CatNovel), and TransPhy3D-Test. It improves accuracy and temporal consistency over strong image/video baselines, and a normal variant sets the best video normal estimation results on ClearPose. A compact 1.3B version runs at ~0.17 s/frame. Integrated into a grasping stack, DKT's depth boosts success rates across translucent, reflective and diffuse surfaces, outperforming prior estimators. Together, these results support a broader claim: "Diffusion knows transparency." Generative video priors can be repurposed, efficiently and label-free, into robust, temporally coherent perception for challenging real-world manipulation.