ChatPaper.aiChatPaper

Les vecteurs de pilotage textuels peuvent améliorer la compréhension visuelle dans les modèles de langage multimodaux de grande taille.

Textual Steering Vectors Can Improve Visual Understanding in Multimodal Large Language Models

May 20, 2025
Auteurs: Woody Haosheng Gan, Deqing Fu, Julian Asilis, Ollie Liu, Dani Yogatama, Vatsal Sharan, Robin Jia, Willie Neiswanger
cs.AI

Résumé

Les méthodes de pilotage ont émergé comme des outils efficaces et ciblés pour guider le comportement des grands modèles de langage (LLMs) sans modifier leurs paramètres. Cependant, les grands modèles de langage multimodaux (MLLMs) ne bénéficient pas actuellement de la même panoplie de techniques, en partie à cause de leur récence et de leur diversité architecturale. Inspirés par cette lacune, nous explorons si les MLLMs peuvent être pilotés en utilisant des vecteurs dérivés de leur architecture de base textuelle (LLM), via des autoencodeurs épars (SAEs), le décalage moyen (mean shift) et la sonde linéaire (linear probing). Nous constatons que le pilotage basé sur le texte améliore systématiquement la précision multimodale à travers diverses architectures de MLLMs et tâches visuelles. En particulier, le décalage moyen augmente la précision des relations spatiales sur CV-Bench jusqu'à +7,3 % et la précision du comptage jusqu'à +3,3 %, surpassant les techniques d'incitation (prompting) et montrant une forte généralisation aux ensembles de données hors distribution. Ces résultats mettent en évidence les vecteurs de pilotage textuels comme un mécanisme puissant et efficace pour améliorer l'ancrage dans les MLLMs avec un surcoût minimal en collecte de données et en calcul.
English
Steering methods have emerged as effective and targeted tools for guiding large language models' (LLMs) behavior without modifying their parameters. Multimodal large language models (MLLMs), however, do not currently enjoy the same suite of techniques, due in part to their recency and architectural diversity. Inspired by this gap, we investigate whether MLLMs can be steered using vectors derived from their text-only LLM backbone, via sparse autoencoders (SAEs), mean shift, and linear probing. We find that text-derived steering consistently enhances multimodal accuracy across diverse MLLM architectures and visual tasks. In particular, mean shift boosts spatial relationship accuracy on CV-Bench by up to +7.3% and counting accuracy by up to +3.3%, outperforming prompting and exhibiting strong generalization to out-of-distribution datasets. These results highlight textual steering vectors as a powerful, efficient mechanism for enhancing grounding in MLLMs with minimal additional data collection and computational overhead.

Summary

AI-Generated Summary

PDF12May 27, 2025