Sur l'alignement photométrique global pour la vision bas niveau
On the Global Photometric Alignment for Low-Level Vision
April 9, 2026
Auteurs: Mingjia Li, Tianle Du, Hainuo Wang, Qiming Hu, Xiaojie Guo
cs.AI
Résumé
Les modèles supervisés de vision bas niveau reposent sur des pertes pixel à pixel par rapport à des références appariées, mais les jeux d'entraînement appariés présentent une incohérence photométrique par paire, c'est-à-dire que différentes paires d'images exigent des mappages globaux de luminance, de couleur ou de balance des blancs différents. Cette incohérence provient soit d'un transfert photométrique intrinsèque à la tâche (par exemple, l'amélioration en faible luminosité), soit de décalages de capture non intentionnels (par exemple, la suppression de la pluie), et dans les deux cas, elle entraîne une pathologie d'optimisation. Les pertes de reconstruction standard allouent un budget de gradient disproportionné aux cibles photométriques par paire conflictuelles, évincant la restauration du contenu. Dans cet article, nous étudions ce problème et démontrons que, sous une décomposition des moindres carrés, les composantes photométrique et structurelle du résidu prédiction-cible sont orthogonales, et que la composante photométrique spatialement dense domine l'énergie du gradient. Motivés par cette analyse, nous proposons la Perte d'Alignement Photométrique (PAL). Cet objectif de supervision flexible atténue l'écart photométrique parasite via un alignement affine de couleur en forme close, tout en préservant la supervision pertinente à la restauration, ne nécessitant que des statistiques de covariance et une petite inversion matricielle avec une surcharge négligeable. Sur 6 tâches, 16 jeux de données et 16 architectures, PAL améliore constamment les métriques et la généralisation. L'implémentation se trouve en annexe.
English
Supervised low-level vision models rely on pixel-wise losses against paired references, yet paired training sets exhibit per-pair photometric inconsistency, say, different image pairs demand different global brightness, color, or white-balance mappings. This inconsistency enters through task-intrinsic photometric transfer (e.g., low-light enhancement) or unintended acquisition shifts (e.g., de-raining), and in either case causes an optimization pathology. Standard reconstruction losses allocate disproportionate gradient budget to conflicting per-pair photometric targets, crowding out content restoration. In this paper, we investigate this issue and prove that, under least-squares decomposition, the photometric and structural components of the prediction-target residual are orthogonal, and that the spatially dense photometric component dominates the gradient energy. Motivated by this analysis, we propose Photometric Alignment Loss (PAL). This flexible supervision objective discounts nuisance photometric discrepancy via closed-form affine color alignment while preserving restoration-relevant supervision, requiring only covariance statistics and tiny matrix inversion with negligible overhead. Across 6 tasks, 16 datasets, and 16 architectures, PAL consistently improves metrics and generalization. The implementation is in the appendix.