Reflexionsentfernung durch effiziente Anpassung von Diffusion-Transformatoren
Reflection Removal through Efficient Adaptation of Diffusion Transformers
December 4, 2025
papers.authors: Daniyar Zakarin, Thiemo Wandel, Anton Obukhov, Dengxin Dai
cs.AI
papers.abstract
Wir stellen ein Diffusions-Transformer (DiT)-Framework zur Entfernung von Spiegelungen aus Einzelbildern vor, das die Generalisierungsstärken von Foundation-Diffusionsmodellen im Restaurierungskontext nutzt. Anstatt auf aufgabenspezifische Architekturen zu setzen, passen wir ein vortrainiertes, DiT-basiertes Foundation-Model an, indem wir es auf spiegelungsbelastete Eingaben konditionieren und es zu sauberen Transmissionsschichten lenken. Wir analysieren systematisch existierende Datenquellen zur Spiegelungsentfernung hinsichtlich Diversität, Skalierbarkeit und Fotorealismus. Um den Mangel an geeigneten Daten zu beheben, entwickeln wir eine physikalisch basierte Rendering (PBR)-Pipeline in Blender, die auf dem Principled BSDF aufbaut, um realistische Glasmaterialien und Spiegelungseffekte zu synthetisieren. Die effiziente, LoRA-basierte Anpassung des Foundation-Models kombiniert mit den vorgeschlagenen synthetischen Daten erzielt state-of-the-art Leistung in In-Domain- und Zero-Shot-Benchmarks. Diese Ergebnisse demonstrieren, dass vortrainierte Diffusions-Transformer in Kombination mit physikalisch fundierter Datensynthese und effizienter Anpassung eine skalierbare und hochwertige Lösung für die Spiegelungsentfernung bieten. Projektseite: https://hf.co/spaces/huawei-bayerlab/windowseat-reflection-removal-web
English
We introduce a diffusion-transformer (DiT) framework for single-image reflection removal that leverages the generalization strengths of foundation diffusion models in the restoration setting. Rather than relying on task-specific architectures, we repurpose a pre-trained DiT-based foundation model by conditioning it on reflection-contaminated inputs and guiding it toward clean transmission layers. We systematically analyze existing reflection removal data sources for diversity, scalability, and photorealism. To address the shortage of suitable data, we construct a physically based rendering (PBR) pipeline in Blender, built around the Principled BSDF, to synthesize realistic glass materials and reflection effects. Efficient LoRA-based adaptation of the foundation model, combined with the proposed synthetic data, achieves state-of-the-art performance on in-domain and zero-shot benchmarks. These results demonstrate that pretrained diffusion transformers, when paired with physically grounded data synthesis and efficient adaptation, offer a scalable and high-fidelity solution for reflection removal. Project page: https://hf.co/spaces/huawei-bayerlab/windowseat-reflection-removal-web