Revisitando la fusión de imágenes para la corrección del balance de blancos con múltiples fuentes de iluminación

Resumen

La corrección del balance de blancos (WB) en escenas con múltiples fuentes de iluminación sigue siendo un desafío persistente en visión por computadora. Métodos recientes han explorado enfoques basados en fusión, donde una red neuronal combina linealmente múltiples versiones sRGB de una imagen de entrada, cada una procesada con ajustes predefinidos de WB. Sin embargo, demostramos que estos métodos son subóptimos para escenarios comunes con múltiples fuentes de iluminación. Además, los métodos existentes basados en fusión dependen de conjuntos de datos sRGB de WB que carecen de imágenes dedicadas a múltiples fuentes de iluminación, lo que limita tanto el entrenamiento como la evaluación. Para abordar estos desafíos, presentamos dos contribuciones clave. Primero, proponemos un modelo eficiente basado en transformadores que captura efectivamente las dependencias espaciales entre los ajustes sRGB de WB, mejorando sustancialmente las técnicas de fusión lineal. Segundo, introducimos un conjunto de datos a gran escala de múltiples fuentes de iluminación que comprende más de 16,000 imágenes sRGB renderizadas con cinco configuraciones diferentes de WB, junto con imágenes corregidas de WB. Nuestro método logra una mejora de hasta el 100\% sobre las técnicas existentes en nuestro nuevo conjunto de datos de fusión de imágenes con múltiples fuentes de iluminación.

English

White balance (WB) correction in scenes with multiple illuminants remains a persistent challenge in computer vision. Recent methods explored fusion-based approaches, where a neural network linearly blends multiple sRGB versions of an input image, each processed with predefined WB presets. However, we demonstrate that these methods are suboptimal for common multi-illuminant scenarios. Additionally, existing fusion-based methods rely on sRGB WB datasets lacking dedicated multi-illuminant images, limiting both training and evaluation. To address these challenges, we introduce two key contributions. First, we propose an efficient transformer-based model that effectively captures spatial dependencies across sRGB WB presets, substantially improving upon linear fusion techniques. Second, we introduce a large-scale multi-illuminant dataset comprising over 16,000 sRGB images rendered with five different WB settings, along with WB-corrected images. Our method achieves up to 100\% improvement over existing techniques on our new multi-illuminant image fusion dataset.

Revisitando la fusión de imágenes para la corrección del balance de blancos con múltiples fuentes de iluminación

Revisiting Image Fusion for Multi-Illuminant White-Balance Correction

Resumen

Support