De cuadrículas 2D a tokens 1D: Reformando representaciones compartidas para la fusión de imágenes multimodales

Resumen

La fusión de imágenes multimodales tiene como objetivo integrar información complementaria de diferentes modalidades en una imagen fusionada que preserve detalles locales ricos mientras mantiene una apariencia global coherente. Los enfoques existentes construyen representaciones compartidas en cuadrículas de características 2D, que destacan en modelar estructuras locales pero ofrecen un control limitado sobre los factores de apariencia global a nivel de imagen. Para equilibrar estos objetivos, introducimos una interfaz compacta de tokens 1D basada en un tokenizador de imágenes preentrenado y congelado para modelar factores de apariencia/base no locales. En lugar de usar el tokenizador como un backbone de reconstrucción, nuestro diseño emplea el espacio de tokens 1D como un portador global, manteniendo la ruta espacial 2D para la restauración de estructuras locales. Específicamente, presentamos la Edición Selectiva de Tokens (STE), que actualiza/reemplaza de forma dispersa un pequeño conjunto de tokens críticos, proporcionando un mecanismo ligero para guiar la coherencia de la apariencia global sin modificar el backbone de fusión y evitando pérdidas adicionales. Experimentos en cuatro puntos de referencia comúnmente utilizados muestran que nuestro método logra el mejor rendimiento general, con mejoras consistentes y multimétricas tanto en coherencia global como en fidelidad local. Página del proyecto: https://zju-xyc.github.io/1D-Fusion-Project-Page/

English

Multimodal image fusion aims to integrate complementary information from different modalities into a fused image that preserves rich local details while maintaining globally consistent appearance. Existing approaches build shared representations on 2D feature grids, which excel at modeling local structures but offer limited leverage over image-level global appearance factors. To balance these objectives, we introduce a compact 1D token interface based on a frozen pretrained image tokenizer for modeling non-local appearance/base factors. Rather than using the tokenizer as a reconstruction backbone, our design uses the 1D token space as a global carrier while retaining the 2D spatial pathway for local structure restoration. Specifically, we introduce Selective Token Editing (STE), which sparsely updates/replaces a small set of critical tokens, providing a lightweight mechanism to steer global appearance coherence while keeping the fusion backbone unchanged and avoiding extra losses. Experiments on four commonly used benchmarks show that our method achieves the best overall performance, with consistent, multi-metric improvements in both global coherence and local fidelity. Project page: https://zju-xyc.github.io/1D-Fusion-Project-Page/