Élimination des réflexions par adaptation efficace de transformeurs de diffusion
Reflection Removal through Efficient Adaptation of Diffusion Transformers
December 4, 2025
papers.authors: Daniyar Zakarin, Thiemo Wandel, Anton Obukhov, Dengxin Dai
cs.AI
papers.abstract
Nous présentons un cadre de diffusion-transformer (DiT) pour l'élimination des réflexions sur image unique, qui exploite les forces de généralisation des modèles de diffusion fondateurs dans un contexte de restauration. Plutôt que de s'appuyer sur des architectures spécifiques à la tâche, nous réutilisons un modèle fondateur pré-entraîné basé sur DiT en le conditionnant sur des entrées contaminées par des réflexions et en le guidant vers des couches de transmission propres. Nous analysons systématiquement les sources de données existantes pour l'élimination des réflexions en termes de diversité, d'évolutivité et de photoréalisme. Pour pallier le manque de données appropriées, nous construisons un pipeline de rendu physique (PBR) dans Blender, basé sur le BSDF Principled, pour synthétiser des matériaux vitreux et des effets de réflexion réalistes. L'adaptation efficace du modèle fondateur via LoRA, combinée aux données synthétiques proposées, atteint des performances state-of-the-art sur des benchmarks en domaine connu et en généralisation zero-shot. Ces résultats démontrent que les transformers de diffusion pré-entraînés, associés à une synthèse de données physiquement plausibles et une adaptation efficace, offrent une solution évolutive et haute fidélité pour l'élimination des réflexions. Page du projet : https://hf.co/spaces/huawei-bayerlab/windowseat-reflection-removal-web
English
We introduce a diffusion-transformer (DiT) framework for single-image reflection removal that leverages the generalization strengths of foundation diffusion models in the restoration setting. Rather than relying on task-specific architectures, we repurpose a pre-trained DiT-based foundation model by conditioning it on reflection-contaminated inputs and guiding it toward clean transmission layers. We systematically analyze existing reflection removal data sources for diversity, scalability, and photorealism. To address the shortage of suitable data, we construct a physically based rendering (PBR) pipeline in Blender, built around the Principled BSDF, to synthesize realistic glass materials and reflection effects. Efficient LoRA-based adaptation of the foundation model, combined with the proposed synthetic data, achieves state-of-the-art performance on in-domain and zero-shot benchmarks. These results demonstrate that pretrained diffusion transformers, when paired with physically grounded data synthesis and efficient adaptation, offer a scalable and high-fidelity solution for reflection removal. Project page: https://hf.co/spaces/huawei-bayerlab/windowseat-reflection-removal-web