Textuele stuurvectoren kunnen het visuele begrip in multimodale grote taalmodellen verbeteren.
Textual Steering Vectors Can Improve Visual Understanding in Multimodal Large Language Models
May 20, 2025
Auteurs: Woody Haosheng Gan, Deqing Fu, Julian Asilis, Ollie Liu, Dani Yogatama, Vatsal Sharan, Robin Jia, Willie Neiswanger
cs.AI
Samenvatting
Stuurmethoden zijn naar voren gekomen als effectieve en gerichte hulpmiddelen om het gedrag van grote taalmodellen (LLMs) te beïnvloeden zonder hun parameters aan te passen. Multimodale grote taalmodellen (MLLMs) beschikken echter nog niet over dezelfde reeks technieken, deels vanwege hun recente ontwikkeling en architectonische diversiteit. Geïnspireerd door deze kloof onderzoeken we of MLLMs kunnen worden gestuurd met behulp van vectoren die zijn afgeleid van hun tekstgebaseerde LLM-backbone, via sparse autoencoders (SAEs), mean shift en lineaire probing. We ontdekken dat tekstafgeleide sturing consistent de multimodale nauwkeurigheid verbetert over diverse MLLM-architecturen en visuele taken. In het bijzonder verhoogt mean shift de nauwkeurigheid van ruimtelijke relaties op CV-Bench met tot wel +7,3% en de telnauwkeurigheid met tot wel +3,3%, wat beter presteert dan prompting en sterke generalisatie vertoont naar out-of-distribution datasets. Deze resultaten benadrukken tekstuele stuurvectoren als een krachtig, efficiënt mechanisme om de gronding in MLLMs te verbeteren met minimale extra datacollectie en rekenkundige overhead.
English
Steering methods have emerged as effective and targeted tools for guiding
large language models' (LLMs) behavior without modifying their parameters.
Multimodal large language models (MLLMs), however, do not currently enjoy the
same suite of techniques, due in part to their recency and architectural
diversity. Inspired by this gap, we investigate whether MLLMs can be steered
using vectors derived from their text-only LLM backbone, via sparse
autoencoders (SAEs), mean shift, and linear probing. We find that text-derived
steering consistently enhances multimodal accuracy across diverse MLLM
architectures and visual tasks. In particular, mean shift boosts spatial
relationship accuracy on CV-Bench by up to +7.3% and counting accuracy by up to
+3.3%, outperforming prompting and exhibiting strong generalization to
out-of-distribution datasets. These results highlight textual steering vectors
as a powerful, efficient mechanism for enhancing grounding in MLLMs with
minimal additional data collection and computational overhead.