О глобальном фотометрическом выравнивании для задач низкоуровневого компьютерного зрения

Аннотация

Модели низкоуровневого компьютерного зрения с учителем основаны на поэлементных потерях относительно парных эталонов, однако парные обучающие наборы демонстрируют фотометрическую нестабильность для каждой пары — например, различные пары изображений требуют различных глобальных преобразований яркости, цветности или баланса белого. Эта нестабильность возникает из-за внутреннего фотометрического преобразования задачи (например, улучшения низкой освещенности) или непреднамеренных сдвигов при съемке (например, удаления дождя) и в любом случае приводит к патологии оптимизации. Стандартные реконструкционные потери выделяют непропорционально большой градиентный бюджет на конфликтующие фотометрические целевые показатели для каждой пары, вытесняя восстановление содержания. В данной статье мы исследуем эту проблему и доказываем, что при разложении по методу наименьших квадратов фотометрическая и структурная компоненты остатка между прогнозом и целью ортогональны, причем пространственно плотная фотометрическая компонента доминирует в градиентной энергии. Мотивированные этим анализом, мы предлагаем Photometric Alignment Loss (PAL). Этот гибкий целевой функционал обучения нивелирует мешающую фотометрическую несоответствие посредством замкнутого аффинного цветового выравнивания, сохраняя при этом релевантный для восстановления контроль, и требует только ковариационной статистики и обращения матриц малого размера с пренебрежимо малыми накладными расходами. На 6 задачах, 16 наборах данных и 16 архитектурах PAL стабильно улучшает метрики и обобщающую способность. Реализация приведена в приложении.

English

Supervised low-level vision models rely on pixel-wise losses against paired references, yet paired training sets exhibit per-pair photometric inconsistency, say, different image pairs demand different global brightness, color, or white-balance mappings. This inconsistency enters through task-intrinsic photometric transfer (e.g., low-light enhancement) or unintended acquisition shifts (e.g., de-raining), and in either case causes an optimization pathology. Standard reconstruction losses allocate disproportionate gradient budget to conflicting per-pair photometric targets, crowding out content restoration. In this paper, we investigate this issue and prove that, under least-squares decomposition, the photometric and structural components of the prediction-target residual are orthogonal, and that the spatially dense photometric component dominates the gradient energy. Motivated by this analysis, we propose Photometric Alignment Loss (PAL). This flexible supervision objective discounts nuisance photometric discrepancy via closed-form affine color alignment while preserving restoration-relevant supervision, requiring only covariance statistics and tiny matrix inversion with negligible overhead. Across 6 tasks, 16 datasets, and 16 architectures, PAL consistently improves metrics and generalization. The implementation is in the appendix.

О глобальном фотометрическом выравнивании для задач низкоуровневого компьютерного зрения

On the Global Photometric Alignment for Low-Level Vision

Аннотация

Support