De Grades 2D para Tokens 1D: Reformulando Representações Compartilhadas para Fusão de Imagens Multimodais

Resumo

A fusão de imagens multimodais visa integrar informações complementares de diferentes modalidades em uma imagem fusionada que preserve detalhes locais ricos enquanto mantém uma aparência globalmente consistente. As abordagens existentes constroem representações compartilhadas em grades de características 2D, que se destacam na modelagem de estruturas locais, mas oferecem alavancagem limitada sobre fatores de aparência global em nível de imagem. Para equilibrar esses objetivos, introduzimos uma interface compacta de tokens 1D baseada em um tokenizador de imagens pré-treinado congelado para modelar fatores de aparência/base não locais. Em vez de usar o tokenizador como um backbone de reconstrução, nosso design utiliza o espaço de tokens 1D como um transportador global, mantendo o caminho espacial 2D para restauração de estruturas locais. Especificamente, introduzimos a Edição Seletiva de Tokens (STE), que atualiza/substitui esparsamente um pequeno conjunto de tokens críticos, fornecendo um mecanismo leve para orientar a coerência da aparência global, mantendo o backbone de fusão inalterado e evitando perdas extras. Experimentos em quatro benchmarks comumente utilizados mostram que nosso método atinge o melhor desempenho geral, com melhorias consistentes e multimétricas tanto na coerência global quanto na fidelidade local. Página do projeto: https://zju-xyc.github.io/1D-Fusion-Project-Page/

English

Multimodal image fusion aims to integrate complementary information from different modalities into a fused image that preserves rich local details while maintaining globally consistent appearance. Existing approaches build shared representations on 2D feature grids, which excel at modeling local structures but offer limited leverage over image-level global appearance factors. To balance these objectives, we introduce a compact 1D token interface based on a frozen pretrained image tokenizer for modeling non-local appearance/base factors. Rather than using the tokenizer as a reconstruction backbone, our design uses the 1D token space as a global carrier while retaining the 2D spatial pathway for local structure restoration. Specifically, we introduce Selective Token Editing (STE), which sparsely updates/replaces a small set of critical tokens, providing a lightweight mechanism to steer global appearance coherence while keeping the fusion backbone unchanged and avoiding extra losses. Experiments on four commonly used benchmarks show that our method achieves the best overall performance, with consistent, multi-metric improvements in both global coherence and local fidelity. Project page: https://zju-xyc.github.io/1D-Fusion-Project-Page/