La fusión de capas tardías es suficiente: enrutamiento de tokens visuales de doble ruta para modelos de lenguaje grandes multimodales bajo saturación visual

Resumen

Los modelos de lenguaje grandes multimodales (MLLMs) heredan comúnmente la arquitectura Transformer simétrica y profunda diseñada para el modelado de texto unimodal, y aplican el mismo cómputo de manera uniforme a los tokens de imagen y lenguaje. Este diseño pasa por alto una asimetría clave de modalidad: los tokens de imagen y texto difieren sustancialmente en densidad de información, redundancia y profundidad de razonamiento requerida. Mediante un análisis por capas de LLaVA-1.5, observamos que los tokens visuales tienden a saturarse en las capas intermedias. Específicamente, la atención de texto a imagen disminuye de 0.68 en la capa 0 a 0.07 en la capa 4, y se estabiliza cerca de 0.04 después de la capa 18, mientras que los tokens de texto continúan beneficiándose de un procesamiento semántico profundo. Estos hallazgos sugieren un desajuste entre la simetría arquitectónica y la evolución asincrónica en profundidad de las modalidades, lo que resulta en cómputo visual redundante y una posible deriva en las representaciones perceptuales durante la adaptación profunda específica de la tarea. Motivados por esto, proponemos el Enrutamiento de Tokens Visuales de Doble Ruta (DPVR), un marco de enrutamiento asimétrico de modalidad para MLLMs eficientes. Su instanciación central, DPVR-LF (Fusión de Capa Tardía), enruta los tokens visuales en el punto de saturación hacia una rama lateral entrenable de una sola capa, ejecuta un paso hacia adelante solo de texto de trece capas que omite las posiciones de imagen en la pila profunda, y vuelve a fusionar los flujos visual y textual solo en la capa final. Con aproximadamente un 3% de parámetros entrenables, DPVR-LF preserva un rendimiento multimodal competitivo en puntos de referencia estándar, al tiempo que reduce el cómputo visual en la pila profunda del Transformer. Los resultados desafían la suposición convencional de que los tokens visuales deben atravesar todas las capas profundas del modelo de lenguaje, e indican que una sola capa de fusión tardía puede ser suficiente para mantener una competencia perceptual sólida en MLLMs de estilo LLaVA.

English

Multimodal large language models (MLLMs) commonly inherit the deep, symmetric Transformer backbone designed for unimodal text modeling, and apply the same computation uniformly to image and language tokens. This design overlooks a key modality asymmetry: image and text tokens differ substantially in information density, redundancy, and required reasoning depth. Through a layer-wise analysis of LLaVA-1.5, we observe that vision tokens tend to saturate in the middle layers. Specifically, text-to-image attention decreases from 0.68 at layer 0 to 0.07 by layer 4, and stabilizes near 0.04 after layer 18, whereas text tokens continue to benefit from deep semantic processing. These findings suggest a mismatch between architectural symmetry and depth-asynchronous modality evolution, resulting in redundant visual computation and possible drift in perceptual representations during deep task-specific adaptation. Motivated by this, we propose Dual-Path Vision Token Routing (DPVR), a modality-asymmetric routing framework for efficient MLLMs. Its core instantiation, DPVR-LF (Late-Layer Fusion), routes vision tokens at the saturation point into a one-layer trainable side branch, runs a thirteen-layer text-only forward that skips image positions in the deep stack, and re-fuses the visual and textual streams only at the final layer. With approximately 3% trainable parameters, DPVR-LF preserves competitive multimodal performance on standard benchmarks while reducing visual computation in the deep Transformer stack. The results challenge the conventional assumption that vision tokens must traverse all deep language-model layers, and indicate that a single late fusion layer can be sufficient for maintaining strong perceptual competence in LLaVA-style MLLMs.