ISP Leve e Inteligente Aprendido com Dados Não Pareados
Learned Lightweight Smartphone ISP with Unpaired Data
May 15, 2025
Autores: Andrei Arhire, Radu Timofte
cs.AI
Resumo
O Processador de Sinal de Imagem (ISP) é um componente fundamental nas câmeras de smartphones modernos, responsável pela conversão de dados de imagem RAW do sensor para imagens RGB, com um forte foco na qualidade perceptiva. Trabalhos recentes destacam o potencial das abordagens de aprendizado profundo e sua capacidade de capturar detalhes com uma qualidade cada vez mais próxima à das câmeras profissionais. Um passo difícil e custoso no desenvolvimento de um ISP aprendido é a aquisição de dados pareados alinhados pixel a pixel que mapeiam o RAW capturado por um sensor de câmera de smartphone para imagens de referência de alta qualidade. Neste trabalho, abordamos esse desafio propondo um novo método de treinamento para um ISP aprendível que elimina a necessidade de correspondências diretas entre imagens RAW e dados de referência com conteúdo correspondente. Nossa abordagem não pareada emprega uma função de perda multi-termo guiada por treinamento adversarial com múltiplos discriminadores que processam mapas de características de redes pré-treinadas para manter a estrutura do conteúdo enquanto aprendem características de cor e textura a partir do conjunto de dados RGB de destino. Utilizando arquiteturas de redes neurais leves adequadas para dispositivos móveis como backbones, avaliamos nosso método nos conjuntos de dados Zurich RAW to RGB e Fujifilm UltraISP. Comparada aos métodos de treinamento pareado, nossa estratégia de aprendizado não pareado mostra um forte potencial e alcança alta fidelidade em múltiplas métricas de avaliação. O código e os modelos pré-treinados estão disponíveis em https://github.com/AndreiiArhire/Learned-Lightweight-Smartphone-ISP-with-Unpaired-Data.
English
The Image Signal Processor (ISP) is a fundamental component in modern
smartphone cameras responsible for conversion of RAW sensor image data to RGB
images with a strong focus on perceptual quality. Recent work highlights the
potential of deep learning approaches and their ability to capture details with
a quality increasingly close to that of professional cameras. A difficult and
costly step when developing a learned ISP is the acquisition of pixel-wise
aligned paired data that maps the raw captured by a smartphone camera sensor to
high-quality reference images. In this work, we address this challenge by
proposing a novel training method for a learnable ISP that eliminates the need
for direct correspondences between raw images and ground-truth data with
matching content. Our unpaired approach employs a multi-term loss function
guided by adversarial training with multiple discriminators processing feature
maps from pre-trained networks to maintain content structure while learning
color and texture characteristics from the target RGB dataset. Using
lightweight neural network architectures suitable for mobile devices as
backbones, we evaluated our method on the Zurich RAW to RGB and Fujifilm
UltraISP datasets. Compared to paired training methods, our unpaired learning
strategy shows strong potential and achieves high fidelity across multiple
evaluation metrics. The code and pre-trained models are available at
https://github.com/AndreiiArhire/Learned-Lightweight-Smartphone-ISP-with-Unpaired-Data .