Удаление отражений посредством эффективной адаптации диффузионных трансформаторов
Reflection Removal through Efficient Adaptation of Diffusion Transformers
December 4, 2025
Авторы: Daniyar Zakarin, Thiemo Wandel, Anton Obukhov, Dengxin Dai
cs.AI
Аннотация
Мы представляем диффузионно-трансформерную (DiT) архитектуру для удаления бликов с одиночных изображений, которая использует преимущества обобщающей способности фундаментальных диффузионных моделей в задаче восстановления. Вместо создания специализированных архитектур мы адаптируем предобученную DiT-модель, conditioning её на входных изображениях с бликами и направляя к восстановлению чистых слоёв пропускания. Мы систематически анализируем существующие наборы данных для удаления бликов с точки зрения разнообразия, масштабируемости и фотореалистичности. Для решения проблемы нехватки подходящих данных мы создаём физически корректный pipeline рендеринга (PBR) в Blender на основе Principled BSDF для синтеза реалистичных стеклянных материалов и эффектов отражения. Эффективная адаптация базовой модели на основе LoRA в сочетании с предложенными синтетическими данными достигает state-of-the-art результатов на внутридоменных и zero-shot бенчмарках. Эти результаты демонстрируют, что предобученные диффузионные трансформеры в сочетании с физически обоснованным синтезом данных и эффективной адаптацией предлагают масштабируемое и высококачественное решение для удаления бликов. Страница проекта: https://hf.co/spaces/huawei-bayerlab/windowseat-reflection-removal-web
English
We introduce a diffusion-transformer (DiT) framework for single-image reflection removal that leverages the generalization strengths of foundation diffusion models in the restoration setting. Rather than relying on task-specific architectures, we repurpose a pre-trained DiT-based foundation model by conditioning it on reflection-contaminated inputs and guiding it toward clean transmission layers. We systematically analyze existing reflection removal data sources for diversity, scalability, and photorealism. To address the shortage of suitable data, we construct a physically based rendering (PBR) pipeline in Blender, built around the Principled BSDF, to synthesize realistic glass materials and reflection effects. Efficient LoRA-based adaptation of the foundation model, combined with the proposed synthetic data, achieves state-of-the-art performance on in-domain and zero-shot benchmarks. These results demonstrate that pretrained diffusion transformers, when paired with physically grounded data synthesis and efficient adaptation, offer a scalable and high-fidelity solution for reflection removal. Project page: https://hf.co/spaces/huawei-bayerlab/windowseat-reflection-removal-web