Diffusione Multipath Modellata su Degradazione per Fotografia con Metasuperficie Regolabile
Degradation-Modeled Multipath Diffusion for Tunable Metalens Photography
June 28, 2025
Autori: Jianing Zhang, Jiayi Zhu, Feiyu Ji, Xiaokang Yang, Xiaoyun Yuan
cs.AI
Abstract
Le metalenti offrono un potenziale significativo per l'imaging computazionale ultra-compatto, ma affrontano sfide legate alla complessa degradazione ottica e alle difficoltà di ripristino computazionale. I metodi esistenti si basano tipicamente su una calibrazione ottica precisa o su enormi dataset accoppiati, che non sono banali per i sistemi di imaging nel mondo reale. Inoltre, la mancanza di controllo sul processo di inferenza spesso porta a indesiderati artefatti allucinati. Introduciamo il Degradation-Modeled Multipath Diffusion per la fotografia con metalenti regolabile, sfruttando potenti prior di immagini naturali da modelli pre-addestrati invece di grandi dataset. Il nostro framework utilizza percorsi di prompt positivi, neutri e negativi per bilanciare la generazione di dettagli ad alta frequenza, la fedeltà strutturale e la soppressione della degradazione specifica delle metalenti, insieme a una pseudo-aumentazione dei dati. Un decoder regolabile consente compromessi controllati tra fedeltà e qualità percettiva. Inoltre, un modulo di attenzione consapevole della degradazione spazialmente variabile (SVDA) modella in modo adattivo la complessa degradazione ottica e indotta dal sensore. Infine, progettiamo e costruiamo una MetaCamera su scala millimetrica per la validazione nel mondo reale. I risultati estesi dimostrano che il nostro approccio supera i metodi all'avanguardia, raggiungendo una ricostruzione di immagini ad alta fedeltà e nitidezza. Ulteriori materiali: https://dmdiff.github.io/.
English
Metalenses offer significant potential for ultra-compact computational
imaging but face challenges from complex optical degradation and computational
restoration difficulties. Existing methods typically rely on precise optical
calibration or massive paired datasets, which are non-trivial for real-world
imaging systems. Furthermore, a lack of control over the inference process
often results in undesirable hallucinated artifacts. We introduce
Degradation-Modeled Multipath Diffusion for tunable metalens photography,
leveraging powerful natural image priors from pretrained models instead of
large datasets. Our framework uses positive, neutral, and negative-prompt paths
to balance high-frequency detail generation, structural fidelity, and
suppression of metalens-specific degradation, alongside pseudo data
augmentation. A tunable decoder enables controlled trade-offs between fidelity
and perceptual quality. Additionally, a spatially varying degradation-aware
attention (SVDA) module adaptively models complex optical and sensor-induced
degradation. Finally, we design and build a millimeter-scale MetaCamera for
real-world validation. Extensive results show that our approach outperforms
state-of-the-art methods, achieving high-fidelity and sharp image
reconstruction. More materials: https://dmdiff.github.io/.