ISP Inteligente Ligero Aprendido con Datos No Emparejados

Resumen

El Procesador de Señal de Imagen (ISP, por sus siglas en inglés) es un componente fundamental en las cámaras de los smartphones modernos, encargado de la conversión de datos de imagen RAW capturados por el sensor a imágenes RGB, con un fuerte enfoque en la calidad perceptual. Trabajos recientes destacan el potencial de los enfoques basados en aprendizaje profundo y su capacidad para capturar detalles con una calidad cada vez más cercana a la de cámaras profesionales. Un paso difícil y costoso en el desarrollo de un ISP aprendido es la adquisición de datos emparejados alineados a nivel de píxel, que mapeen la imagen RAW capturada por el sensor de una cámara de smartphone a imágenes de referencia de alta calidad. En este trabajo, abordamos este desafío proponiendo un nuevo método de entrenamiento para un ISP aprendido que elimina la necesidad de correspondencias directas entre imágenes RAW y datos de referencia con contenido coincidente. Nuestro enfoque no emparejado emplea una función de pérdida de múltiples términos guiada por entrenamiento adversarial con múltiples discriminadores que procesan mapas de características de redes preentrenadas, manteniendo la estructura del contenido mientras se aprenden características de color y textura a partir del conjunto de datos RGB objetivo. Utilizando arquitecturas de redes neuronales ligeras adecuadas para dispositivos móviles como base, evaluamos nuestro método en los conjuntos de datos Zurich RAW to RGB y Fujifilm UltraISP. En comparación con los métodos de entrenamiento emparejado, nuestra estrategia de aprendizaje no emparejado muestra un fuerte potencial y logra una alta fidelidad en múltiples métricas de evaluación. El código y los modelos preentrenados están disponibles en https://github.com/AndreiiArhire/Learned-Lightweight-Smartphone-ISP-with-Unpaired-Data.

English

The Image Signal Processor (ISP) is a fundamental component in modern smartphone cameras responsible for conversion of RAW sensor image data to RGB images with a strong focus on perceptual quality. Recent work highlights the potential of deep learning approaches and their ability to capture details with a quality increasingly close to that of professional cameras. A difficult and costly step when developing a learned ISP is the acquisition of pixel-wise aligned paired data that maps the raw captured by a smartphone camera sensor to high-quality reference images. In this work, we address this challenge by proposing a novel training method for a learnable ISP that eliminates the need for direct correspondences between raw images and ground-truth data with matching content. Our unpaired approach employs a multi-term loss function guided by adversarial training with multiple discriminators processing feature maps from pre-trained networks to maintain content structure while learning color and texture characteristics from the target RGB dataset. Using lightweight neural network architectures suitable for mobile devices as backbones, we evaluated our method on the Zurich RAW to RGB and Fujifilm UltraISP datasets. Compared to paired training methods, our unpaired learning strategy shows strong potential and achieves high fidelity across multiple evaluation metrics. The code and pre-trained models are available at https://github.com/AndreiiArhire/Learned-Lightweight-Smartphone-ISP-with-Unpaired-Data .

ISP Inteligente Ligero Aprendido con Datos No Emparejados

Learned Lightweight Smartphone ISP with Unpaired Data

Resumen

Support