ChatPaper.aiChatPaper

Gelernte leichtgewichtige Smartphone-ISP mit ungepaarten Daten

Learned Lightweight Smartphone ISP with Unpaired Data

May 15, 2025
Autoren: Andrei Arhire, Radu Timofte
cs.AI

Zusammenfassung

Der Bildsignalprozessor (Image Signal Processor, ISP) ist eine grundlegende Komponente in modernen Smartphone-Kameras, die für die Umwandlung von RAW-Sensordaten in RGB-Bilder mit einem starken Fokus auf wahrnehmungsbezogene Qualität verantwortlich ist. Aktuelle Arbeiten heben das Potenzial von Deep-Learning-Ansätzen und deren Fähigkeit hervor, Details mit einer zunehmend professionellen Kameraqualität zu erfassen. Ein schwieriger und kostspieliger Schritt bei der Entwicklung eines lernfähigen ISPs ist die Beschaffung von pixelgenau ausgerichteten gepaarten Daten, die die von einem Smartphone-Kamerasensor erfassten Rohdaten auf hochwertige Referenzbilder abbilden. In dieser Arbeit gehen wir diese Herausforderung an, indem wir eine neuartige Trainingsmethode für einen lernfähigen ISP vorschlagen, die die Notwendigkeit direkter Korrespondenzen zwischen Rohbildern und Ground-Truth-Daten mit übereinstimmendem Inhalt eliminiert. Unser ungepaarter Ansatz verwendet eine mehrgliedrige Verlustfunktion, die durch adversarielles Training mit mehreren Diskriminatoren geleitet wird, die Feature-Maps aus vortrainierten Netzwerken verarbeiten, um die Inhaltsstruktur beizubehalten, während Farb- und Texturmerkmale aus dem Ziel-RGB-Datensatz gelernt werden. Unter Verwendung von leichten neuronalen Netzwerkarchitekturen, die für Mobilgeräte geeignet sind, als Backbones, haben wir unsere Methode auf den Zurich RAW to RGB- und Fujifilm UltraISP-Datensätzen evaluiert. Im Vergleich zu gepaarten Trainingsmethoden zeigt unsere ungepaarte Lernstrategie ein starkes Potenzial und erreicht eine hohe Genauigkeit über mehrere Bewertungsmetriken hinweg. Der Code und die vortrainierten Modelle sind unter https://github.com/AndreiiArhire/Learned-Lightweight-Smartphone-ISP-with-Unpaired-Data verfügbar.
English
The Image Signal Processor (ISP) is a fundamental component in modern smartphone cameras responsible for conversion of RAW sensor image data to RGB images with a strong focus on perceptual quality. Recent work highlights the potential of deep learning approaches and their ability to capture details with a quality increasingly close to that of professional cameras. A difficult and costly step when developing a learned ISP is the acquisition of pixel-wise aligned paired data that maps the raw captured by a smartphone camera sensor to high-quality reference images. In this work, we address this challenge by proposing a novel training method for a learnable ISP that eliminates the need for direct correspondences between raw images and ground-truth data with matching content. Our unpaired approach employs a multi-term loss function guided by adversarial training with multiple discriminators processing feature maps from pre-trained networks to maintain content structure while learning color and texture characteristics from the target RGB dataset. Using lightweight neural network architectures suitable for mobile devices as backbones, we evaluated our method on the Zurich RAW to RGB and Fujifilm UltraISP datasets. Compared to paired training methods, our unpaired learning strategy shows strong potential and achieves high fidelity across multiple evaluation metrics. The code and pre-trained models are available at https://github.com/AndreiiArhire/Learned-Lightweight-Smartphone-ISP-with-Unpaired-Data .

Summary

AI-Generated Summary

PDF22May 20, 2025