Sobre o Alinhamento Fotométrico Global para Visão Computacional de Baixo Nível

Resumo

Os modelos supervisionados de visão de baixo nível dependem de perdas pixel a pixel contra referências pareadas, porém conjuntos de treinamento pareados exibem inconsistência fotométrica por par – ou seja, diferentes pares de imagens exigem mapeamentos distintos de brilho global, cor ou balanço de branco. Essa inconsistência surge através de transferência fotométrica intrínseca à tarefa (ex.: realce de baixa luminosidade) ou de variações não intencionais de aquisição (ex.: remoção de chuva), e em ambos os casos causa uma patologia de otimização. As perdas de reconstrução padrão alocam um orçamento de gradiente desproporcional para metas fotométricas conflitantes por par, prejudicando a restauração de conteúdo. Neste artigo, investigamos esse problema e provamos que, sob decomposição por mínimos quadrados, os componentes fotométrico e estrutural do resíduo predição-alvo são ortogonais, e que o componente fotométrico espacialmente denso domina a energia do gradiente. Motivados por essa análise, propomos a Perda de Alinhamento Fotométrico (PAL). Este objetivo de supervisão flexível desconta discrepâncias fotométricas perturbadoras via alinhamento afim de cores de forma fechada, preservando a supervisão relevante para restauração, exigindo apenas estatísticas de covariância e uma pequena inversão de matriz com sobrecarga insignificante. Em 6 tarefas, 16 conjuntos de dados e 16 arquiteturas, a PAL melhora consistentemente as métricas e a generalização. A implementação está no apêndice.

English

Supervised low-level vision models rely on pixel-wise losses against paired references, yet paired training sets exhibit per-pair photometric inconsistency, say, different image pairs demand different global brightness, color, or white-balance mappings. This inconsistency enters through task-intrinsic photometric transfer (e.g., low-light enhancement) or unintended acquisition shifts (e.g., de-raining), and in either case causes an optimization pathology. Standard reconstruction losses allocate disproportionate gradient budget to conflicting per-pair photometric targets, crowding out content restoration. In this paper, we investigate this issue and prove that, under least-squares decomposition, the photometric and structural components of the prediction-target residual are orthogonal, and that the spatially dense photometric component dominates the gradient energy. Motivated by this analysis, we propose Photometric Alignment Loss (PAL). This flexible supervision objective discounts nuisance photometric discrepancy via closed-form affine color alignment while preserving restoration-relevant supervision, requiring only covariance statistics and tiny matrix inversion with negligible overhead. Across 6 tasks, 16 datasets, and 16 architectures, PAL consistently improves metrics and generalization. The implementation is in the appendix.

Sobre o Alinhamento Fotométrico Global para Visão Computacional de Baixo Nível

On the Global Photometric Alignment for Low-Level Vision

Resumo

Support