Späte Schichtfusion ist ausreichend: Zweipfad-Vision-Token-Routing für multimodale große Sprachmodelle unter visueller Sättigung

Zusammenfassung

Multimodale große Sprachmodelle (MLLMs) übernehmen üblicherweise das tiefe, symmetrische Transformer-Grundgerüst, das für unimodale Textmodellierung entwickelt wurde, und wenden dieselbe Berechnung einheitlich auf Bild- und Sprach-Tokens an. Dieses Design übersieht eine entscheidende Modalitätsasymmetrie: Bild- und Text-Tokens unterscheiden sich erheblich in Informationsdichte, Redundanz und erforderlicher Argumentationstiefe. Durch eine schichtweise Analyse von LLaVA-1.5 beobachten wir, dass visuelle Tokens in den mittleren Schichten tendenziell sättigen. Konkret sinkt die Text-zu-Bild-Aufmerksamkeit von 0,68 in Schicht 0 auf 0,07 in Schicht 4 und stabilisiert sich nach Schicht 18 nahe 0,04, während Text-Tokens weiterhin von tiefer semantischer Verarbeitung profitieren. Diese Ergebnisse deuten auf eine Diskrepanz zwischen architektonischer Symmetrie und tiefenasynchroner Modalitätsentwicklung hin, was zu redundanter visueller Berechnung und möglicher Drift von Wahrnehmungsrepräsentationen während tiefer aufgabenspezifischer Anpassung führt. Motiviert durch diese Erkenntnisse schlagen wir Dual-Path Vision Token Routing (DPVR) vor, ein modalitätsasymmetrisches Routing-Framework für effiziente MLLMs. Seine Kerninstanziierung, DPVR-LF (Late-Layer Fusion), leitet visuelle Tokens am Sättigungspunkt in eine einlagige trainierbare Nebenverzweigung um, führt einen dreizehnlagigen text-only Vorwärtsdurchlauf durch, der Bildpositionen im tiefen Stapel überspringt, und fusioniert die visuellen und textuellen Ströme erst in der letzten Schicht wieder. Mit etwa 3% trainierbaren Parametern erhält DPVR-LF wettbewerbsfähige multimodale Leistung auf Standard-Benchmarks und reduziert gleichzeitig die visuelle Berechnung im tiefen Transformer-Stapel. Die Ergebnisse stellen die konventionelle Annahme in Frage, dass visuelle Tokens alle tiefen Sprachmodellschichten durchlaufen müssen, und deuten darauf hin, dass eine einzige späte Fusionsschicht ausreichen kann, um eine starke Wahrnehmungskompetenz in MLLMs vom Typ LLaVA aufrechtzuerhalten.

English

Multimodal large language models (MLLMs) commonly inherit the deep, symmetric Transformer backbone designed for unimodal text modeling, and apply the same computation uniformly to image and language tokens. This design overlooks a key modality asymmetry: image and text tokens differ substantially in information density, redundancy, and required reasoning depth. Through a layer-wise analysis of LLaVA-1.5, we observe that vision tokens tend to saturate in the middle layers. Specifically, text-to-image attention decreases from 0.68 at layer 0 to 0.07 by layer 4, and stabilizes near 0.04 after layer 18, whereas text tokens continue to benefit from deep semantic processing. These findings suggest a mismatch between architectural symmetry and depth-asynchronous modality evolution, resulting in redundant visual computation and possible drift in perceptual representations during deep task-specific adaptation. Motivated by this, we propose Dual-Path Vision Token Routing (DPVR), a modality-asymmetric routing framework for efficient MLLMs. Its core instantiation, DPVR-LF (Late-Layer Fusion), routes vision tokens at the saturation point into a one-layer trainable side branch, runs a thirteen-layer text-only forward that skips image positions in the deep stack, and re-fuses the visual and textual streams only at the final layer. With approximately 3% trainable parameters, DPVR-LF preserves competitive multimodal performance on standard benchmarks while reducing visual computation in the deep Transformer stack. The results challenge the conventional assumption that vision tokens must traverse all deep language-model layers, and indicate that a single late fusion layer can be sufficient for maintaining strong perceptual competence in LLaVA-style MLLMs.