ISP Inteligente Ligero Aprendido con Datos No Emparejados
Learned Lightweight Smartphone ISP with Unpaired Data
May 15, 2025
Autores: Andrei Arhire, Radu Timofte
cs.AI
Resumen
El Procesador de Señal de Imagen (ISP, por sus siglas en inglés) es un componente fundamental en las cámaras de los smartphones modernos, encargado de la conversión de datos de imagen RAW capturados por el sensor a imágenes RGB, con un fuerte enfoque en la calidad perceptual. Trabajos recientes destacan el potencial de los enfoques basados en aprendizaje profundo y su capacidad para capturar detalles con una calidad cada vez más cercana a la de cámaras profesionales. Un paso difícil y costoso en el desarrollo de un ISP aprendido es la adquisición de datos emparejados alineados a nivel de píxel, que mapeen la imagen RAW capturada por el sensor de una cámara de smartphone a imágenes de referencia de alta calidad. En este trabajo, abordamos este desafío proponiendo un nuevo método de entrenamiento para un ISP aprendido que elimina la necesidad de correspondencias directas entre imágenes RAW y datos de referencia con contenido coincidente. Nuestro enfoque no emparejado emplea una función de pérdida de múltiples términos guiada por entrenamiento adversarial con múltiples discriminadores que procesan mapas de características de redes preentrenadas, manteniendo la estructura del contenido mientras se aprenden características de color y textura a partir del conjunto de datos RGB objetivo. Utilizando arquitecturas de redes neuronales ligeras adecuadas para dispositivos móviles como base, evaluamos nuestro método en los conjuntos de datos Zurich RAW to RGB y Fujifilm UltraISP. En comparación con los métodos de entrenamiento emparejado, nuestra estrategia de aprendizaje no emparejado muestra un fuerte potencial y logra una alta fidelidad en múltiples métricas de evaluación. El código y los modelos preentrenados están disponibles en https://github.com/AndreiiArhire/Learned-Lightweight-Smartphone-ISP-with-Unpaired-Data.
English
The Image Signal Processor (ISP) is a fundamental component in modern
smartphone cameras responsible for conversion of RAW sensor image data to RGB
images with a strong focus on perceptual quality. Recent work highlights the
potential of deep learning approaches and their ability to capture details with
a quality increasingly close to that of professional cameras. A difficult and
costly step when developing a learned ISP is the acquisition of pixel-wise
aligned paired data that maps the raw captured by a smartphone camera sensor to
high-quality reference images. In this work, we address this challenge by
proposing a novel training method for a learnable ISP that eliminates the need
for direct correspondences between raw images and ground-truth data with
matching content. Our unpaired approach employs a multi-term loss function
guided by adversarial training with multiple discriminators processing feature
maps from pre-trained networks to maintain content structure while learning
color and texture characteristics from the target RGB dataset. Using
lightweight neural network architectures suitable for mobile devices as
backbones, we evaluated our method on the Zurich RAW to RGB and Fujifilm
UltraISP datasets. Compared to paired training methods, our unpaired learning
strategy shows strong potential and achieves high fidelity across multiple
evaluation metrics. The code and pre-trained models are available at
https://github.com/AndreiiArhire/Learned-Lightweight-Smartphone-ISP-with-Unpaired-Data .Summary
AI-Generated Summary