Eliminación de Reflexiones mediante la Adaptación Eficiente de Transformadores de Difusión
Reflection Removal through Efficient Adaptation of Diffusion Transformers
December 4, 2025
Autores: Daniyar Zakarin, Thiemo Wandel, Anton Obukhov, Dengxin Dai
cs.AI
Resumen
Presentamos un marco de difusión-transformador (DiT) para la eliminación de reflejos en imágenes individuales que aprovecha las fortalezas de generalización de los modelos de difusión base en el contexto de la restauración. En lugar de depender de arquitecturas específicas para la tarea, reutilizamos un modelo base preentrenado basado en DiT condicionándolo con entradas contaminadas por reflejos y guiándolo hacia capas de transmisión limpias. Analizamos sistemáticamente las fuentes de datos existentes para la eliminación de reflejos en términos de diversidad, escalabilidad y fotorrealismo. Para abordar la escasez de datos adecuados, construimos una canalización de renderizado basado en física (PBR) en Blender, basada en el BSDF Principled, para sintetizar materiales de vidrio realistas y efectos de reflexión. La adaptación eficiente del modelo base mediante LoRA, combinada con los datos sintéticos propuestos, logra un rendimiento de vanguardia en benchmarks de dominio interno y de cero disparos. Estos resultados demuestran que los transformadores de difusión preentrenados, cuando se combinan con una síntesis de datos físicamente fundamentada y una adaptación eficiente, ofrecen una solución escalable y de alta fidelidad para la eliminación de reflejos. Página del proyecto: https://hf.co/spaces/huawei-bayerlab/windowseat-reflection-removal-web
English
We introduce a diffusion-transformer (DiT) framework for single-image reflection removal that leverages the generalization strengths of foundation diffusion models in the restoration setting. Rather than relying on task-specific architectures, we repurpose a pre-trained DiT-based foundation model by conditioning it on reflection-contaminated inputs and guiding it toward clean transmission layers. We systematically analyze existing reflection removal data sources for diversity, scalability, and photorealism. To address the shortage of suitable data, we construct a physically based rendering (PBR) pipeline in Blender, built around the Principled BSDF, to synthesize realistic glass materials and reflection effects. Efficient LoRA-based adaptation of the foundation model, combined with the proposed synthetic data, achieves state-of-the-art performance on in-domain and zero-shot benchmarks. These results demonstrate that pretrained diffusion transformers, when paired with physically grounded data synthesis and efficient adaptation, offer a scalable and high-fidelity solution for reflection removal. Project page: https://hf.co/spaces/huawei-bayerlab/windowseat-reflection-removal-web