Degradationsmodellierte Multipfad-Diffusion für abstimmbare Metalinsen-Fotografie
Degradation-Modeled Multipath Diffusion for Tunable Metalens Photography
June 28, 2025
Autoren: Jianing Zhang, Jiayi Zhu, Feiyu Ji, Xiaokang Yang, Xiaoyun Yuan
cs.AI
Zusammenfassung
Metalinsen bieten ein erhebliches Potenzial für ultra-kompakte Computational Imaging, stehen jedoch vor Herausforderungen durch komplexe optische Degradation und Schwierigkeiten bei der computergestützten Wiederherstellung. Bestehende Methoden stützen sich typischerweise auf präzise optische Kalibrierung oder umfangreiche gepaarte Datensätze, was für reale Bildgebungssysteme nicht trivial ist. Darüber hinaus führt ein Mangel an Kontrolle über den Inferenzprozess oft zu unerwünschten halluzinierten Artefakten. Wir stellen Degradation-Modeled Multipath Diffusion für die einstellbare Metalinsen-Fotografie vor, das leistungsstarke natürliche Bildprioren aus vortrainierten Modellen anstelle großer Datensätze nutzt. Unser Framework verwendet positive, neutrale und negative-Prompt-Pfade, um die Erzeugung hochfrequenter Details, strukturelle Treue und die Unterdrückung metalinsenspezifischer Degradation zu balancieren, ergänzt durch pseudo-Datenaugmentation. Ein einstellbarer Decoder ermöglicht kontrollierte Kompromisse zwischen Treue und wahrgenommener Qualität. Zusätzlich modelliert ein räumlich variierendes, degradationsbewusstes Attention-Modul (SVDA) komplexe optische und sensorinduzierte Degradation adaptiv. Schließlich entwerfen und bauen wir eine millimeterkleine MetaCamera zur Validierung in der realen Welt. Umfangreiche Ergebnisse zeigen, dass unser Ansatz state-of-the-art Methoden übertrifft und eine hochwertige und scharfe Bildrekonstruktion erreicht. Weitere Materialien: https://dmdiff.github.io/.
English
Metalenses offer significant potential for ultra-compact computational
imaging but face challenges from complex optical degradation and computational
restoration difficulties. Existing methods typically rely on precise optical
calibration or massive paired datasets, which are non-trivial for real-world
imaging systems. Furthermore, a lack of control over the inference process
often results in undesirable hallucinated artifacts. We introduce
Degradation-Modeled Multipath Diffusion for tunable metalens photography,
leveraging powerful natural image priors from pretrained models instead of
large datasets. Our framework uses positive, neutral, and negative-prompt paths
to balance high-frequency detail generation, structural fidelity, and
suppression of metalens-specific degradation, alongside pseudo data
augmentation. A tunable decoder enables controlled trade-offs between fidelity
and perceptual quality. Additionally, a spatially varying degradation-aware
attention (SVDA) module adaptively models complex optical and sensor-induced
degradation. Finally, we design and build a millimeter-scale MetaCamera for
real-world validation. Extensive results show that our approach outperforms
state-of-the-art methods, achieving high-fidelity and sharp image
reconstruction. More materials: https://dmdiff.github.io/.