Sobre el Alineamiento Fotométrico Global para la Visión por Computador de Bajo Nivel

Resumen

Los modelos supervisados de visión de bajo nivel se basan en pérdidas por píxel frente a referencias emparejadas; sin embargo, los conjuntos de entrenamiento emparejados presentan inconsistencia fotométrica por par, es decir, diferentes pares de imágenes requieren mapeos globales distintos de brillo, color o balance de blancos. Esta inconsistencia surge a través de transferencia fotométrica intrínseca a la tarea (por ejemplo, mejora de baja iluminación) o cambios no intencionados en la adquisición (por ejemplo, eliminación de lluvia), y en cualquier caso provoca una patología de optimización. Las pérdidas de reconstrucción estándar asignan un presupuesto de gradiente desproporcionado a objetivos fotométricos conflictivos por par, desplazando la restauración del contenido. En este artículo, investigamos este problema y demostramos que, bajo una descomposición de mínimos cuadrados, los componentes fotométrico y estructural del residual entre la predicción y el objetivo son ortogonales, y que el componente fotométrico espacialmente denso domina la energía del gradiente. Motivados por este análisis, proponemos la Pérdida de Alineación Fotométrica (PAL). Este objetivo de supervisión flexible descuenta la discrepancia fotométrica molesta mediante una alineación afín de color en forma cerrada, preservando al mismo tiempo la supervisión relevante para la restauración, requiriendo solo estadísticas de covarianza y una pequeña inversión de matriz con sobrecarga insignificante. En 6 tareas, 16 conjuntos de datos y 16 arquitecturas, PAL mejora consistentemente las métricas y la generalización. La implementación se encuentra en el apéndice.

English

Supervised low-level vision models rely on pixel-wise losses against paired references, yet paired training sets exhibit per-pair photometric inconsistency, say, different image pairs demand different global brightness, color, or white-balance mappings. This inconsistency enters through task-intrinsic photometric transfer (e.g., low-light enhancement) or unintended acquisition shifts (e.g., de-raining), and in either case causes an optimization pathology. Standard reconstruction losses allocate disproportionate gradient budget to conflicting per-pair photometric targets, crowding out content restoration. In this paper, we investigate this issue and prove that, under least-squares decomposition, the photometric and structural components of the prediction-target residual are orthogonal, and that the spatially dense photometric component dominates the gradient energy. Motivated by this analysis, we propose Photometric Alignment Loss (PAL). This flexible supervision objective discounts nuisance photometric discrepancy via closed-form affine color alignment while preserving restoration-relevant supervision, requiring only covariance statistics and tiny matrix inversion with negligible overhead. Across 6 tasks, 16 datasets, and 16 architectures, PAL consistently improves metrics and generalization. The implementation is in the appendix.

Sobre el Alineamiento Fotométrico Global para la Visión por Computador de Bajo Nivel

On the Global Photometric Alignment for Low-Level Vision

Resumen

Support