Fusão em Camadas Tardias é Suficiente: Roteamento de Tokens Visuais de Caminho Duplo para Modelos de Linguagem Grandes Multimodais sob Saturação Visual

Resumo

Modelos de linguagem grandes multimodais (MLLMs) geralmente herdam o backbone Transformer profundo e simétrico, projetado para modelagem unimodal de texto, e aplicam o mesmo cálculo de forma uniforme a tokens de imagem e linguagem. Esse design ignora uma assimetria modal chave: tokens de imagem e texto diferem substancialmente em densidade de informação, redundância e profundidade de raciocínio necessária. Por meio de uma análise camada por camada do LLaVA-1.5, observamos que os tokens de visão tendem a saturar nas camadas intermediárias. Especificamente, a atenção texto-imagem diminui de 0,68 na camada 0 para 0,07 na camada 4, estabilizando-se perto de 0,04 após a camada 18, enquanto os tokens de texto continuam a se beneficiar de processamento semântico profundo. Essas descobertas sugerem um descompasso entre a simetria arquitetural e a evolução assíncrona em profundidade das modalidades, resultando em computação visual redundante e possível deriva nas representações perceptuais durante adaptação profunda a tarefas específicas. Motivados por isso, propomos o Roteamento de Tokens de Visão por Caminho Duplo (DPVR), uma estrutura de roteamento assimétrica entre modalidades para MLLMs eficientes. Sua instanciação central, DPVR-LF (Fusão em Camada Tardia), roteia tokens de visão no ponto de saturação para um ramo lateral treinável de uma camada, executa uma passagem direta apenas com texto de treze camadas que ignora as posições de imagem no empilhamento profundo e re-funde os fluxos visual e textual apenas na camada final. Com aproximadamente 3% de parâmetros treináveis, o DPVR-LF preserva desempenho multimodal competitivo em benchmarks padrão, ao mesmo tempo que reduz a computação visual no empilhamento Transformer profundo. Os resultados desafiam a suposição convencional de que tokens de visão devem percorrer todas as camadas profundas do modelo de linguagem e indicam que uma única camada de fusão tardia pode ser suficiente para manter forte competência perceptual em MLLMs do tipo LLaVA.

English

Multimodal large language models (MLLMs) commonly inherit the deep, symmetric Transformer backbone designed for unimodal text modeling, and apply the same computation uniformly to image and language tokens. This design overlooks a key modality asymmetry: image and text tokens differ substantially in information density, redundancy, and required reasoning depth. Through a layer-wise analysis of LLaVA-1.5, we observe that vision tokens tend to saturate in the middle layers. Specifically, text-to-image attention decreases from 0.68 at layer 0 to 0.07 by layer 4, and stabilizes near 0.04 after layer 18, whereas text tokens continue to benefit from deep semantic processing. These findings suggest a mismatch between architectural symmetry and depth-asynchronous modality evolution, resulting in redundant visual computation and possible drift in perceptual representations during deep task-specific adaptation. Motivated by this, we propose Dual-Path Vision Token Routing (DPVR), a modality-asymmetric routing framework for efficient MLLMs. Its core instantiation, DPVR-LF (Late-Layer Fusion), routes vision tokens at the saturation point into a one-layer trainable side branch, runs a thirteen-layer text-only forward that skips image positions in the deep stack, and re-fuses the visual and textual streams only at the final layer. With approximately 3% trainable parameters, DPVR-LF preserves competitive multimodal performance on standard benchmarks while reducing visual computation in the deep Transformer stack. The results challenge the conventional assumption that vision tokens must traverse all deep language-model layers, and indicate that a single late fusion layer can be sufficient for maintaining strong perceptual competence in LLaVA-style MLLMs.