ChatPaper.aiChatPaper

Valutazione e Gestione delle Preferenze Modali nei Modelli Linguistici Multimodali di Grande Dimensione

Evaluating and Steering Modality Preferences in Multimodal Large Language Model

May 27, 2025
Autori: Yu Zhang, Jinlong Ma, Yongshuai Hou, Xuefeng Bai, Kehai Chen, Yang Xiang, Jun Yu, Min Zhang
cs.AI

Abstract

I modelli linguistici multimodali di grandi dimensioni (MLLM) hanno ottenuto prestazioni notevoli su compiti complessi con contesto multimodale. Tuttavia, è ancora poco studiato se mostrino una preferenza di modalità durante l'elaborazione di contesti multimodali. Per studiare questa questione, abbiamo prima costruito un benchmark MC\textsuperscript{2} in scenari controllati di conflitto di evidenze per valutare sistematicamente la preferenza di modalità, che è la tendenza a favorire una modalità rispetto a un'altra quando si prendono decisioni basate su evidenze multimodali in conflitto. La nostra valutazione estensiva rivela che tutti i 18 MLLM testati dimostrano generalmente un chiaro bias di modalità, e la preferenza di modalità può essere influenzata da interventi esterni. Un'analisi approfondita rivela che la direzione della preferenza può essere catturata all'interno delle rappresentazioni latenti degli MLLM. Basandoci su questo, proponiamo un metodo di sondaggio e direzionamento basato sull'ingegneria delle rappresentazioni per controllare esplicitamente la preferenza di modalità senza ulteriori fine-tuning o prompt accuratamente progettati. Il nostro metodo amplifica efficacemente la preferenza di modalità verso una direzione desiderata e si applica a compiti downstream come la mitigazione delle allucinazioni e la traduzione automatica multimodale, ottenendo miglioramenti promettenti.
English
Multimodal large language models (MLLMs) have achieved remarkable performance on complex tasks with multimodal context. However, it is still understudied whether they exhibit modality preference when processing multimodal contexts. To study this question, we first build a MC\textsuperscript{2} benchmark under controlled evidence conflict scenarios to systematically evaluate modality preference, which is the tendency to favor one modality over another when making decisions based on multimodal conflicting evidence. Our extensive evaluation reveals that all 18 tested MLLMs generally demonstrate clear modality bias, and modality preference can be influenced by external interventions. An in-depth analysis reveals that the preference direction can be captured within the latent representations of MLLMs. Built on this, we propose a probing and steering method based on representation engineering to explicitly control modality preference without additional fine-tuning or carefully crafted prompts. Our method effectively amplifies modality preference toward a desired direction and applies to downstream tasks such as hallucination mitigation and multimodal machine translation, yielding promising improvements.
PDF92June 2, 2025