Diffusion multipath modélisée par dégradation pour la photographie à métalentille réglable
Degradation-Modeled Multipath Diffusion for Tunable Metalens Photography
June 28, 2025
Auteurs: Jianing Zhang, Jiayi Zhu, Feiyu Ji, Xiaokang Yang, Xiaoyun Yuan
cs.AI
Résumé
Les métalentilles offrent un potentiel significatif pour l'imagerie computationnelle ultra-compacte, mais se heurtent à des défis liés à la dégradation optique complexe et aux difficultés de restauration computationnelle. Les méthodes existantes reposent généralement sur un étalonnage optique précis ou sur des ensembles de données appariées massifs, qui sont non triviaux pour les systèmes d'imagerie en conditions réelles. De plus, un manque de contrôle sur le processus d'inférence entraîne souvent des artefacts hallucinés indésirables. Nous introduisons le modèle de dégradation multipath diffusion pour la photographie à métalentille réglable, exploitant des a priori puissants sur les images naturelles issus de modèles pré-entraînés plutôt que de grands ensembles de données. Notre framework utilise des chemins de prompt positif, neutre et négatif pour équilibrer la génération de détails haute fréquence, la fidélité structurelle et la suppression de la dégradation spécifique aux métalentilles, accompagnés d'une augmentation de données pseudo-réelles. Un décodeur réglable permet des compromis contrôlés entre fidélité et qualité perceptuelle. Par ailleurs, un module d'attention adaptative à la dégradation spatialement variable (SVDA) modélise de manière adaptative la dégradation complexe induite par l'optique et le capteur. Enfin, nous concevons et construisons une MetaCamera à l'échelle millimétrique pour une validation en conditions réelles. Des résultats approfondis montrent que notre approche surpasse les méthodes de pointe, atteignant une reconstruction d'image à haute fidélité et netteté. Plus de matériaux : https://dmdiff.github.io/.
English
Metalenses offer significant potential for ultra-compact computational
imaging but face challenges from complex optical degradation and computational
restoration difficulties. Existing methods typically rely on precise optical
calibration or massive paired datasets, which are non-trivial for real-world
imaging systems. Furthermore, a lack of control over the inference process
often results in undesirable hallucinated artifacts. We introduce
Degradation-Modeled Multipath Diffusion for tunable metalens photography,
leveraging powerful natural image priors from pretrained models instead of
large datasets. Our framework uses positive, neutral, and negative-prompt paths
to balance high-frequency detail generation, structural fidelity, and
suppression of metalens-specific degradation, alongside pseudo data
augmentation. A tunable decoder enables controlled trade-offs between fidelity
and perceptual quality. Additionally, a spatially varying degradation-aware
attention (SVDA) module adaptively models complex optical and sensor-induced
degradation. Finally, we design and build a millimeter-scale MetaCamera for
real-world validation. Extensive results show that our approach outperforms
state-of-the-art methods, achieving high-fidelity and sharp image
reconstruction. More materials: https://dmdiff.github.io/.