Remoção de Reflexos por meio da Adaptação Eficiente de Transformadores de Difusão
Reflection Removal through Efficient Adaptation of Diffusion Transformers
December 4, 2025
Autores: Daniyar Zakarin, Thiemo Wandel, Anton Obukhov, Dengxin Dai
cs.AI
Resumo
Apresentamos uma estrutura de difusão-transformer (DiT) para remoção de reflexos em imagem única que aproveita os pontos fortes de generalização dos modelos de difusão de base no contexto de restauração. Em vez de depender de arquiteturas específicas para a tarefa, reaproveitamos um modelo de base pré-treinado baseado em DiT, condicionando-o a entradas contaminadas por reflexos e guiando-o em direção a camadas de transmissão limpas. Analisamos sistematicamente as fontes de dados existentes para remoção de reflexos quanto à diversidade, escalabilidade e fotorrealismo. Para lidar com a escassez de dados adequados, construímos um pipeline de renderização com base física (PBR) no Blender, baseado no Principled BSDF, para sintetizar materiais de vidro realistas e efeitos de reflexão. A adaptação eficiente do modelo de base baseada em LoRA, combinada com os dados sintéticos propostos, atinge desempenho de última geração em benchmarks de domínio interno e de generalização zero-shot. Esses resultados demonstram que transformers de difusão pré-treinados, quando emparelhados com síntese de dados fisicamente fundamentada e adaptação eficiente, oferecem uma solução escalável e de alta fidelidade para remoção de reflexos. Página do projeto: https://hf.co/spaces/huawei-bayerlab/windowseat-reflection-removal-web
English
We introduce a diffusion-transformer (DiT) framework for single-image reflection removal that leverages the generalization strengths of foundation diffusion models in the restoration setting. Rather than relying on task-specific architectures, we repurpose a pre-trained DiT-based foundation model by conditioning it on reflection-contaminated inputs and guiding it toward clean transmission layers. We systematically analyze existing reflection removal data sources for diversity, scalability, and photorealism. To address the shortage of suitable data, we construct a physically based rendering (PBR) pipeline in Blender, built around the Principled BSDF, to synthesize realistic glass materials and reflection effects. Efficient LoRA-based adaptation of the foundation model, combined with the proposed synthetic data, achieves state-of-the-art performance on in-domain and zero-shot benchmarks. These results demonstrate that pretrained diffusion transformers, when paired with physically grounded data synthesis and efficient adaptation, offer a scalable and high-fidelity solution for reflection removal. Project page: https://hf.co/spaces/huawei-bayerlab/windowseat-reflection-removal-web