Rimozione dei Riflessi mediante Adattamento Efficiente di Trasformatori a Diffusione
Reflection Removal through Efficient Adaptation of Diffusion Transformers
December 4, 2025
Autori: Daniyar Zakarin, Thiemo Wandel, Anton Obukhov, Dengxin Dai
cs.AI
Abstract
Introduciamo un framework diffusion-transformer (DiT) per la rimozione di riflessi da singola immagine che sfrutta i punti di forza generalizzativi dei modelli diffusion foundation in ambito di restauro. Invece di affidarsi ad architetture specifiche per il compito, riproponiamo un modello foundation pre-addestrato basato su DiT condizionandolo su input contaminati da riflessi e guidandolo verso layer di trasmissione puliti. Analizziamo sistematicamente le fonti di dati esistenti per la rimozione di riflessi in termini di diversità, scalabilità e fotorealismo. Per ovviare alla carenza di dati adeguati, costruiamo una pipeline di rendering basata sulla fisica (PBR) in Blender, sviluppata attorno al Principled BSDF, per sintetizzare materiali vetrosi ed effetti di riflessione realistici. L'adattamento efficiente del modello foundation basato su LoRA, combinato con i dati sintetici proposti, raggiunge prestazioni allo stato dell'arte su benchmark in-dominio e zero-shot. Questi risultati dimostrano che i transformer diffusion pre-addestrati, se abbinati a una sintesi di dati fisicamente fondata e a un adattamento efficiente, offrono una soluzione scalabile e ad alta fedeltà per la rimozione dei riflessi. Pagina del progetto: https://hf.co/spaces/huawei-bayerlab/windowseat-reflection-removal-web
English
We introduce a diffusion-transformer (DiT) framework for single-image reflection removal that leverages the generalization strengths of foundation diffusion models in the restoration setting. Rather than relying on task-specific architectures, we repurpose a pre-trained DiT-based foundation model by conditioning it on reflection-contaminated inputs and guiding it toward clean transmission layers. We systematically analyze existing reflection removal data sources for diversity, scalability, and photorealism. To address the shortage of suitable data, we construct a physically based rendering (PBR) pipeline in Blender, built around the Principled BSDF, to synthesize realistic glass materials and reflection effects. Efficient LoRA-based adaptation of the foundation model, combined with the proposed synthetic data, achieves state-of-the-art performance on in-domain and zero-shot benchmarks. These results demonstrate that pretrained diffusion transformers, when paired with physically grounded data synthesis and efficient adaptation, offer a scalable and high-fidelity solution for reflection removal. Project page: https://hf.co/spaces/huawei-bayerlab/windowseat-reflection-removal-web