Textuele stuurvectoren kunnen het visuele begrip in multimodale grote taalmodellen verbeteren.

Samenvatting

Stuurmethoden zijn naar voren gekomen als effectieve en gerichte hulpmiddelen om het gedrag van grote taalmodellen (LLMs) te beïnvloeden zonder hun parameters aan te passen. Multimodale grote taalmodellen (MLLMs) beschikken echter nog niet over dezelfde reeks technieken, deels vanwege hun recente ontwikkeling en architectonische diversiteit. Geïnspireerd door deze kloof onderzoeken we of MLLMs kunnen worden gestuurd met behulp van vectoren die zijn afgeleid van hun tekstgebaseerde LLM-backbone, via sparse autoencoders (SAEs), mean shift en lineaire probing. We ontdekken dat tekstafgeleide sturing consistent de multimodale nauwkeurigheid verbetert over diverse MLLM-architecturen en visuele taken. In het bijzonder verhoogt mean shift de nauwkeurigheid van ruimtelijke relaties op CV-Bench met tot wel +7,3% en de telnauwkeurigheid met tot wel +3,3%, wat beter presteert dan prompting en sterke generalisatie vertoont naar out-of-distribution datasets. Deze resultaten benadrukken tekstuele stuurvectoren als een krachtig, efficiënt mechanisme om de gronding in MLLMs te verbeteren met minimale extra datacollectie en rekenkundige overhead.

English

Steering methods have emerged as effective and targeted tools for guiding large language models' (LLMs) behavior without modifying their parameters. Multimodal large language models (MLLMs), however, do not currently enjoy the same suite of techniques, due in part to their recency and architectural diversity. Inspired by this gap, we investigate whether MLLMs can be steered using vectors derived from their text-only LLM backbone, via sparse autoencoders (SAEs), mean shift, and linear probing. We find that text-derived steering consistently enhances multimodal accuracy across diverse MLLM architectures and visual tasks. In particular, mean shift boosts spatial relationship accuracy on CV-Bench by up to +7.3% and counting accuracy by up to +3.3%, outperforming prompting and exhibiting strong generalization to out-of-distribution datasets. These results highlight textual steering vectors as a powerful, efficient mechanism for enhancing grounding in MLLMs with minimal additional data collection and computational overhead.

Textuele stuurvectoren kunnen het visuele begrip in multimodale grote taalmodellen verbeteren.

Textual Steering Vectors Can Improve Visual Understanding in Multimodal Large Language Models

Samenvatting

Support