ChatPaper.aiChatPaper

La fusion en couches tardives est suffisante : routage de jetons visuels à double chemin pour les grands modèles de langage multimodaux sous saturation visuelle

Late-Layer Fusion is Enough: Dual-Path Vision Token Routing for Multimodal Large Language Models under Visual Saturation

June 8, 2026
Auteurs: Siyuan Liu, Jinyang Wu
cs.AI

Résumé

Les modèles de langage multimodaux à grande échelle (MLLMs) héritent généralement de l'architecture Transformer profonde et symétrique conçue pour la modélisation de texte unimodale, et appliquent le même calcul de manière uniforme aux tokens d'image et de langage. Cette conception néglige une asymétrie de modalité clé : les tokens d'image et de texte diffèrent considérablement en densité d'information, en redondance et en profondeur de raisonnement requise. Grâce à une analyse couche par couche de LLaVA-1.5, nous observons que les tokens visuels ont tendance à saturer dans les couches intermédiaires. Plus précisément, l'attention texte-image diminue de 0,68 à la couche 0 à 0,07 à la couche 4, et se stabilise près de 0,04 après la couche 18, tandis que les tokens de texte continuent de bénéficier d'un traitement sémantique profond. Ces résultats suggèrent un décalage entre la symétrie architecturale et l'évolution asynchrone en profondeur des modalités, entraînant un calcul visuel redondant et une possible dérive des représentations perceptuelles lors de l'adaptation profonde spécifique à une tâche. Motivés par cela, nous proposons le Routage de Tokens Visuels à Double Voie (DPVR), un cadre de routage asymétrique selon la modalité pour des MLLMs efficaces. Son instanciation centrale, DPVR-LF (Fusion en Couches Tardives), achemine les tokens visuels au point de saturation vers une branche latérale entraînable d'une couche, exécute un passage avant de treize couches uniquement textuel qui saute les positions d'image dans la pile profonde, et re-fusionne les flux visuels et textuels uniquement à la dernière couche. Avec environ 3% de paramètres entraînables, DPVR-LF préserve des performances multimodales compétitives sur les bancs d'essai standard tout en réduisant le calcul visuel dans la pile Transformer profonde. Les résultats remettent en question l'hypothèse conventionnelle selon laquelle les tokens visuels doivent traverser toutes les couches profondes du modèle de langage, et indiquent qu'une seule couche de fusion tardive peut être suffisante pour maintenir une forte compétence perceptuelle dans les MLLMs de type LLaVA.
English
Multimodal large language models (MLLMs) commonly inherit the deep, symmetric Transformer backbone designed for unimodal text modeling, and apply the same computation uniformly to image and language tokens. This design overlooks a key modality asymmetry: image and text tokens differ substantially in information density, redundancy, and required reasoning depth. Through a layer-wise analysis of LLaVA-1.5, we observe that vision tokens tend to saturate in the middle layers. Specifically, text-to-image attention decreases from 0.68 at layer 0 to 0.07 by layer 4, and stabilizes near 0.04 after layer 18, whereas text tokens continue to benefit from deep semantic processing. These findings suggest a mismatch between architectural symmetry and depth-asynchronous modality evolution, resulting in redundant visual computation and possible drift in perceptual representations during deep task-specific adaptation. Motivated by this, we propose Dual-Path Vision Token Routing (DPVR), a modality-asymmetric routing framework for efficient MLLMs. Its core instantiation, DPVR-LF (Late-Layer Fusion), routes vision tokens at the saturation point into a one-layer trainable side branch, runs a thirteen-layer text-only forward that skips image positions in the deep stack, and re-fuses the visual and textual streams only at the final layer. With approximately 3% trainable parameters, DPVR-LF preserves competitive multimodal performance on standard benchmarks while reducing visual computation in the deep Transformer stack. The results challenge the conventional assumption that vision tokens must traverse all deep language-model layers, and indicate that a single late fusion layer can be sufficient for maintaining strong perceptual competence in LLaVA-style MLLMs.