拡散トランスフォーマーの効率的適応による反射除去
Reflection Removal through Efficient Adaptation of Diffusion Transformers
December 4, 2025
著者: Daniyar Zakarin, Thiemo Wandel, Anton Obukhov, Dengxin Dai
cs.AI
要旨
単一画像反射除去のための拡散トランスフォーマー(DiT)フレームワークを提案する。本手法は、修復タスクにおいて基盤拡散モデルが持つ汎化性能の強みを活用する。タスク特化型のアーキテクチャに依存するのではなく、事前学習済みのDiTベースの基盤モデルを、反射を含む入力を条件として与え、透過層へのクリーンな出力へと導く形で転用する。既存の反射除去データソースについて、多様性、拡張性、写実性の観点から体系的に分析を行う。適切なデータ不足に対処するため、Blender内で物理ベースレンダリング(PBR)パイプラインを構築し、Principled BSDFを中心とした写実的なガラス材質と反射効果の合成を実現した。提案する合成データと、基盤モデルへの効率的なLoRAベース適応を組み合わせることで、ドメイン内評価およびゼロショット評価において最先端の性能を達成した。これらの結果は、事前学習済み拡散トランスフォーマーが、物理ベースのデータ合成と効率的な適応手法と組み合わさることで、反射除去に対する拡張性が高く高精細なソリューションを提供することを示している。プロジェクトページ: https://hf.co/spaces/huawei-bayerlab/windowseat-reflection-removal-web
English
We introduce a diffusion-transformer (DiT) framework for single-image reflection removal that leverages the generalization strengths of foundation diffusion models in the restoration setting. Rather than relying on task-specific architectures, we repurpose a pre-trained DiT-based foundation model by conditioning it on reflection-contaminated inputs and guiding it toward clean transmission layers. We systematically analyze existing reflection removal data sources for diversity, scalability, and photorealism. To address the shortage of suitable data, we construct a physically based rendering (PBR) pipeline in Blender, built around the Principled BSDF, to synthesize realistic glass materials and reflection effects. Efficient LoRA-based adaptation of the foundation model, combined with the proposed synthetic data, achieves state-of-the-art performance on in-domain and zero-shot benchmarks. These results demonstrate that pretrained diffusion transformers, when paired with physically grounded data synthesis and efficient adaptation, offer a scalable and high-fidelity solution for reflection removal. Project page: https://hf.co/spaces/huawei-bayerlab/windowseat-reflection-removal-web