Слияния на поздних слоях достаточно: двухпутевая маршрутизация визуальных токенов для мультимодальных больших языковых моделей в условиях визуального насыщения

Аннотация

Мультимодальные большие языковые модели (MLLM) обычно наследуют глубокую симметричную архитектуру Transformer, предназначенную для одномодального моделирования текста, и применяют одни и те же вычисления одинаково к токенам изображений и языка. Такой дизайн игнорирует ключевую асимметрию модальностей: токены изображений и текста существенно различаются по информационной плотности, избыточности и требуемой глубине рассуждений. При послойном анализе LLaVA-1.5 мы наблюдаем, что визуальные токены имеют тенденцию к насыщению в средних слоях. В частности, внимание от текста к изображению снижается с 0,68 на слое 0 до 0,07 к слою 4 и стабилизируется около 0,04 после слоя 18, в то время как текстовые токены продолжают получать выгоду от глубокой семантической обработки. Эти результаты указывают на несоответствие между симметрией архитектуры и асинхронной по глубине эволюцией модальностей, что приводит к избыточным визуальным вычислениям и возможному дрейфу перцептивных представлений в процессе глубокой адаптации к конкретной задаче. Руководствуясь этим, мы предлагаем Dual-Path Vision Token Routing (DPVR) — асимметричную по модальностям маршрутизирующую структуру для эффективных MLLM. Её основная реализация, DPVR-LF (позднее слияние слоёв), направляет визуальные токены в точке насыщения в однослойную обучаемую боковую ветвь, выполняет тринадцатислойный прямой проход только для текста, пропуская позиции изображений в глубоком стеке, и повторно объединяет визуальный и текстовый потоки только на финальном слое. Приблизительно с 3% обучаемых параметров DPVR-LF сохраняет конкурентоспособную мультимодальную производительность на стандартных эталонных тестах, одновременно сокращая визуальные вычисления в глубоком стеке Transformer. Результаты ставят под сомнение традиционное предположение о том, что визуальные токены должны проходить через все глубокие слои языковой модели, и указывают на то, что одного позднего слоя слияния может быть достаточно для поддержания сильной перцептивной компетентности в MLLM в стиле LLaVA.

English

Multimodal large language models (MLLMs) commonly inherit the deep, symmetric Transformer backbone designed for unimodal text modeling, and apply the same computation uniformly to image and language tokens. This design overlooks a key modality asymmetry: image and text tokens differ substantially in information density, redundancy, and required reasoning depth. Through a layer-wise analysis of LLaVA-1.5, we observe that vision tokens tend to saturate in the middle layers. Specifically, text-to-image attention decreases from 0.68 at layer 0 to 0.07 by layer 4, and stabilizes near 0.04 after layer 18, whereas text tokens continue to benefit from deep semantic processing. These findings suggest a mismatch between architectural symmetry and depth-asynchronous modality evolution, resulting in redundant visual computation and possible drift in perceptual representations during deep task-specific adaptation. Motivated by this, we propose Dual-Path Vision Token Routing (DPVR), a modality-asymmetric routing framework for efficient MLLMs. Its core instantiation, DPVR-LF (Late-Layer Fusion), routes vision tokens at the saturation point into a one-layer trainable side branch, runs a thirteen-layer text-only forward that skips image positions in the deep stack, and re-fuses the visual and textual streams only at the final layer. With approximately 3% trainable parameters, DPVR-LF preserves competitive multimodal performance on standard benchmarks while reducing visual computation in the deep Transformer stack. The results challenge the conventional assumption that vision tokens must traverse all deep language-model layers, and indicate that a single late fusion layer can be sufficient for maintaining strong perceptual competence in LLaVA-style MLLMs.