ChatPaper.aiChatPaper

Оценка и управление предпочтениями модальностей в мультимодальных больших языковых моделях

Evaluating and Steering Modality Preferences in Multimodal Large Language Model

May 27, 2025
Авторы: Yu Zhang, Jinlong Ma, Yongshuai Hou, Xuefeng Bai, Kehai Chen, Yang Xiang, Jun Yu, Min Zhang
cs.AI

Аннотация

Мультимодальные крупные языковые модели (MLLM) демонстрируют выдающиеся результаты в решении сложных задач с использованием мультимодального контекста. Однако до сих пор недостаточно изучено, проявляют ли они предпочтение к определённой модальности при обработке мультимодальных данных. Для исследования этого вопроса мы сначала создали бенчмарк MC\textsuperscript{2} в условиях контролируемого конфликта данных, чтобы систематически оценить предпочтение модальности — тенденцию отдавать предпочтение одной модальности перед другой при принятии решений на основе противоречивых мультимодальных данных. Наши обширные эксперименты показывают, что все 18 протестированных MLLM в целом демонстрируют явное смещение в сторону определённой модальности, и это предпочтение может быть изменено с помощью внешних вмешательств. Глубокий анализ показывает, что направление предпочтения может быть выявлено в латентных представлениях MLLM. На основе этого мы предлагаем метод зондирования и управления, основанный на инженерии представлений, для явного контроля предпочтения модальности без дополнительного тонкого настраивания или тщательно разработанных промптов. Наш метод эффективно усиливает предпочтение модальности в желаемом направлении и применим к таким задачам, как снижение галлюцинаций и мультимодальный машинный перевод, демонстрируя многообещающие улучшения.
English
Multimodal large language models (MLLMs) have achieved remarkable performance on complex tasks with multimodal context. However, it is still understudied whether they exhibit modality preference when processing multimodal contexts. To study this question, we first build a MC\textsuperscript{2} benchmark under controlled evidence conflict scenarios to systematically evaluate modality preference, which is the tendency to favor one modality over another when making decisions based on multimodal conflicting evidence. Our extensive evaluation reveals that all 18 tested MLLMs generally demonstrate clear modality bias, and modality preference can be influenced by external interventions. An in-depth analysis reveals that the preference direction can be captured within the latent representations of MLLMs. Built on this, we propose a probing and steering method based on representation engineering to explicitly control modality preference without additional fine-tuning or carefully crafted prompts. Our method effectively amplifies modality preference toward a desired direction and applies to downstream tasks such as hallucination mitigation and multimodal machine translation, yielding promising improvements.
PDF62June 2, 2025