ChatPaper.aiChatPaper

Моделирование деградации для многолучевой диффузии в настраиваемой фотографии с использованием металлинз

Degradation-Modeled Multipath Diffusion for Tunable Metalens Photography

June 28, 2025
Авторы: Jianing Zhang, Jiayi Zhu, Feiyu Ji, Xiaokang Yang, Xiaoyun Yuan
cs.AI

Аннотация

Металинзы обладают значительным потенциалом для ультракомпактной вычислительной визуализации, но сталкиваются с проблемами, связанными со сложной оптической деградацией и трудностями вычислительного восстановления. Существующие методы обычно полагаются на точную оптическую калибровку или обширные парные наборы данных, что является нетривиальной задачей для реальных систем визуализации. Кроме того, отсутствие контроля над процессом вывода часто приводит к нежелательным артефактам, вызванным галлюцинациями. Мы представляем метод Degradation-Modeled Multipath Diffusion для настраиваемой фотографии с использованием металинз, который использует мощные априорные знания о естественных изображениях из предварительно обученных моделей вместо больших наборов данных. Наша структура использует положительные, нейтральные и отрицательные пути подсказок для балансировки генерации высокочастотных деталей, структурной точности и подавления специфической деградации металинз, а также псевдо-аугментации данных. Настраиваемый декодер позволяет контролировать компромисс между точностью и перцептивным качеством. Дополнительно модуль пространственно-вариативного внимания с учетом деградации (SVDA) адаптивно моделирует сложную оптическую и сенсорную деградацию. Наконец, мы разработали и создали миллиметровую MetaCamera для валидации в реальных условиях. Обширные результаты показывают, что наш подход превосходит современные методы, достигая высокоточной и четкой реконструкции изображений. Дополнительные материалы: https://dmdiff.github.io/.
English
Metalenses offer significant potential for ultra-compact computational imaging but face challenges from complex optical degradation and computational restoration difficulties. Existing methods typically rely on precise optical calibration or massive paired datasets, which are non-trivial for real-world imaging systems. Furthermore, a lack of control over the inference process often results in undesirable hallucinated artifacts. We introduce Degradation-Modeled Multipath Diffusion for tunable metalens photography, leveraging powerful natural image priors from pretrained models instead of large datasets. Our framework uses positive, neutral, and negative-prompt paths to balance high-frequency detail generation, structural fidelity, and suppression of metalens-specific degradation, alongside pseudo data augmentation. A tunable decoder enables controlled trade-offs between fidelity and perceptual quality. Additionally, a spatially varying degradation-aware attention (SVDA) module adaptively models complex optical and sensor-induced degradation. Finally, we design and build a millimeter-scale MetaCamera for real-world validation. Extensive results show that our approach outperforms state-of-the-art methods, achieving high-fidelity and sharp image reconstruction. More materials: https://dmdiff.github.io/.
PDF21July 1, 2025