Van 2D-grids tot 1D-tokens: het hervormen van gedeelde representaties voor multimodale beeldfusie

Samenvatting

Multimodale beeldfusie streeft ernaar complementaire informatie uit verschillende modaliteiten te integreren in een gefuseerd beeld dat rijke lokale details behoudt terwijl een globaal consistent uiterlijk wordt gehandhaafd. Bestaande benaderingen bouwen gedeelde representaties op 2D kenmerkrasters, die uitblinken in het modelleren van lokale structuren maar beperkte invloed hebben op beeldniveau globale uiterlijkfactoren. Om deze doelstellingen in evenwicht te brengen, introduceren we een compacte 1D tokeninterface gebaseerd op een bevroren voorgetrainde beeldtokenizer voor het modelleren van niet-lokale uiterlijk-/basisfactoren. In plaats van de tokenizer te gebruiken als reconstructie-backbone, gebruikt ons ontwerp de 1D tokenruimte als een globale drager terwijl het 2D ruimtelijke pad wordt behouden voor herstel van lokale structuren. Specifiek introduceren we Selectieve Tokenbewerking (STE), die een kleine set kritische tokens spaarzaam bijwerkt/vervangt, wat een lichtgewicht mechanisme biedt om globale uiterlijkcoherentie te sturen terwijl de fusie-backbone ongewijzigd blijft en extra verliezen worden vermeden. Experimenten op vier veelgebruikte benchmarks tonen aan dat onze methode de beste algehele prestaties bereikt, met consistente, multi-metrische verbeteringen in zowel globale coherentie als lokale getrouwheid. Projectpagina: https://zju-xyc.github.io/1D-Fusion-Project-Page/

English

Multimodal image fusion aims to integrate complementary information from different modalities into a fused image that preserves rich local details while maintaining globally consistent appearance. Existing approaches build shared representations on 2D feature grids, which excel at modeling local structures but offer limited leverage over image-level global appearance factors. To balance these objectives, we introduce a compact 1D token interface based on a frozen pretrained image tokenizer for modeling non-local appearance/base factors. Rather than using the tokenizer as a reconstruction backbone, our design uses the 1D token space as a global carrier while retaining the 2D spatial pathway for local structure restoration. Specifically, we introduce Selective Token Editing (STE), which sparsely updates/replaces a small set of critical tokens, providing a lightweight mechanism to steer global appearance coherence while keeping the fusion backbone unchanged and avoiding extra losses. Experiments on four commonly used benchmarks show that our method achieves the best overall performance, with consistent, multi-metric improvements in both global coherence and local fidelity. Project page: https://zju-xyc.github.io/1D-Fusion-Project-Page/