Sull'Allineamento Fotometrico Globale per la Visione Artificiale di Basso Livello

Abstract

I modelli di visione artificiale di basso livello supervisionati si basano su loss puntuali (pixel-wise) rispetto a riferimenti accoppiati, tuttavia i dataset di training accoppiati presentano un'incongruenza fotometrica per ogni coppia; ad esempio, coppie di immagini diverse richiedono mappature globali diverse per luminosità, colore o bilanciamento del bianco. Questa incongruenza si insinua attraverso trasferimenti fotometrici intrinseci al compito (ad es., enhancement di immagini in condizioni di scarsa illuminazione) o tramite spostamenti non intenzionali durante l'acquisizione (ad es., rimozione della pioggia), e in entrambi i casi causa una patologia di ottimizzazione. Le loss di ricostruzione standard allocano un budget di gradiente sproporzionato verso target fotometrici contrastanti per ogni coppia, soffocando il ripristino del contenuto. In questo articolo, investigiamo questo problema e dimostriamo che, sotto una scomposizione ai minimi quadrati, le componenti fotometrica e strutturale del residuo (predizione-target) sono ortogonali, e che la componente fotometrica spazialmente densa domina l'energia del gradiente. Motivati da questa analisi, proponiamo la Photometric Alignment Loss (PAL). Questo obiettivo di supervisione flessibile sconta la discrepanza fotometrica di disturbo tramite un allineamento affine dei colori in forma chiusa, preservando al contempo la supervisione rilevante per il ripristino, richiedendo solo statistiche di covarianza e una piccola inversione di matrice con overhead trascurabile. Attraverso 6 task, 16 dataset e 16 architetture, PAL migliora costantemente le metriche e la generalizzazione. L'implementazione è in appendice.

English

Supervised low-level vision models rely on pixel-wise losses against paired references, yet paired training sets exhibit per-pair photometric inconsistency, say, different image pairs demand different global brightness, color, or white-balance mappings. This inconsistency enters through task-intrinsic photometric transfer (e.g., low-light enhancement) or unintended acquisition shifts (e.g., de-raining), and in either case causes an optimization pathology. Standard reconstruction losses allocate disproportionate gradient budget to conflicting per-pair photometric targets, crowding out content restoration. In this paper, we investigate this issue and prove that, under least-squares decomposition, the photometric and structural components of the prediction-target residual are orthogonal, and that the spatially dense photometric component dominates the gradient energy. Motivated by this analysis, we propose Photometric Alignment Loss (PAL). This flexible supervision objective discounts nuisance photometric discrepancy via closed-form affine color alignment while preserving restoration-relevant supervision, requiring only covariance statistics and tiny matrix inversion with negligible overhead. Across 6 tasks, 16 datasets, and 16 architectures, PAL consistently improves metrics and generalization. The implementation is in the appendix.

Sull'Allineamento Fotometrico Globale per la Visione Artificiale di Basso Livello

On the Global Photometric Alignment for Low-Level Vision

Abstract

Support