Difusión Multipath Modelada por Degradación para Fotografía de Metalentes Sintonizables
Degradation-Modeled Multipath Diffusion for Tunable Metalens Photography
June 28, 2025
Autores: Jianing Zhang, Jiayi Zhu, Feiyu Ji, Xiaokang Yang, Xiaoyun Yuan
cs.AI
Resumen
Las metalentes ofrecen un potencial significativo para la imagen computacional ultracompacta, pero enfrentan desafíos debido a la degradación óptica compleja y las dificultades de restauración computacional. Los métodos existentes suelen depender de una calibración óptica precisa o de grandes conjuntos de datos emparejados, lo cual no es trivial para sistemas de imagen del mundo real. Además, la falta de control sobre el proceso de inferencia a menudo resulta en artefactos alucinados no deseados. Introducimos Degradation-Modeled Multipath Diffusion para la fotografía con metalentes sintonizables, aprovechando poderosos priors de imágenes naturales de modelos preentrenados en lugar de grandes conjuntos de datos. Nuestro marco utiliza rutas de prompts positivos, neutros y negativos para equilibrar la generación de detalles de alta frecuencia, la fidelidad estructural y la supresión de la degradación específica de las metalentes, junto con una pseudo-aumentación de datos. Un decodificador sintonizable permite compensaciones controladas entre fidelidad y calidad perceptual. Adicionalmente, un módulo de atención consciente de degradación espacialmente variable (SVDA) modela de manera adaptativa la degradación óptica compleja e inducida por el sensor. Finalmente, diseñamos y construimos una MetaCámara de escala milimétrica para validación en el mundo real. Resultados extensos muestran que nuestro enfoque supera a los métodos más avanzados, logrando una reconstrucción de imágenes de alta fidelidad y nitidez. Más materiales: https://dmdiff.github.io/.
English
Metalenses offer significant potential for ultra-compact computational
imaging but face challenges from complex optical degradation and computational
restoration difficulties. Existing methods typically rely on precise optical
calibration or massive paired datasets, which are non-trivial for real-world
imaging systems. Furthermore, a lack of control over the inference process
often results in undesirable hallucinated artifacts. We introduce
Degradation-Modeled Multipath Diffusion for tunable metalens photography,
leveraging powerful natural image priors from pretrained models instead of
large datasets. Our framework uses positive, neutral, and negative-prompt paths
to balance high-frequency detail generation, structural fidelity, and
suppression of metalens-specific degradation, alongside pseudo data
augmentation. A tunable decoder enables controlled trade-offs between fidelity
and perceptual quality. Additionally, a spatially varying degradation-aware
attention (SVDA) module adaptively models complex optical and sensor-induced
degradation. Finally, we design and build a millimeter-scale MetaCamera for
real-world validation. Extensive results show that our approach outperforms
state-of-the-art methods, achieving high-fidelity and sharp image
reconstruction. More materials: https://dmdiff.github.io/.