O Verdadeiro Aprendizado Multimodal em Contexto Requer Atenção ao Contexto Visual

Resumo

Modelos de Linguagem Multimodais de Grande Escala (MLLMs), construídos sobre bases linguísticas poderosas, têm possibilitado o Aprendizado em Contexto Multimodal (MICL) - adaptando-se a novas tarefas a partir de algumas demonstrações multimodais compostas por imagens, perguntas e respostas. Apesar de mostrarem melhorias perceptíveis em conjuntos de dados padrão de visão e linguagem, os MLLMs atuais lutam para aproveitar as informações visuais nas demonstrações. Especificamente, eles tendem a negligenciar pistas visuais e a depender excessivamente de padrões textuais, levando a uma mera imitação de texto em vez de uma adaptação multimodal genuína. Esse comportamento faz com que o MICL ainda seja unimodal e restrinja amplamente sua utilidade prática. Mais importante ainda, essa limitação é frequentemente ocultada pelo desempenho aprimorado em tarefas que não exigem a compreensão do contexto visual. Como resultado, como efetivamente aprimorar a capacidade do MICL e avaliar de forma confiável o desempenho do MICL permanece pouco explorado. Para abordar essas questões, primeiro introduzimos a Realocação Dinâmica de Atenção (DARA), uma estratégia eficiente de ajuste fino que incentiva os modelos a prestarem atenção ao contexto visual, reequilibrando a atenção entre tokens visuais e textuais. Além disso, apresentamos o TrueMICL, um conjunto de dados dedicado ao MICL com conjuntos de suporte e teste que exigem explicitamente a integração de informações multimodais - particularmente conteúdo visual - para a conclusão correta da tarefa. Experimentos extensivos demonstram a eficácia de nossa solução holística, mostrando melhorias substanciais nas verdadeiras capacidades de aprendizado em contexto multimodal. Códigos e conjuntos de dados estão disponíveis em https://chenxshuo.github.io/true-micl-colm.

English

Multimodal Large Language Models (MLLMs), built on powerful language backbones, have enabled Multimodal In-Context Learning (MICL)-adapting to new tasks from a few multimodal demonstrations consisting of images, questions, and answers. Despite showing noticeable improvement on standard vision-language datasets, current MLLMs struggle to leverage visual information in the demonstrations. Specifically, they tend to neglect visual cues and over-rely on textual patterns, leading to mere text imitation rather than genuine multimodal adaptation. This behavior makes MICL still unimodal and largely restricts its practical utility. More importantly, this limitation is often concealed by the improved performance on tasks that do not require understanding the visual context. As a result, how to effectively enhance MICL ability and reliably evaluate the MICL performance remains underexplored. To address these issues, we first introduce Dynamic Attention Reallocation (DARA), an efficient fine-tuning strategy that encourages models to attend to the visual context by rebalancing attention across visual and textual tokens. In addition, we present TrueMICL, an MICL-dedicated dataset with both support and test sets that explicitly requires the integration of multimodal information-particularly visual content-for correct task completion. Extensive experiments demonstrate the effectiveness of our holistic solution, showcasing substantial improvements in the true multimodal in-context learning capabilities. Code and datasets are available at https://chenxshuo.github.io/true-micl-colm .

O Verdadeiro Aprendizado Multimodal em Contexto Requer Atenção ao Contexto Visual

True Multimodal In-Context Learning Needs Attention to the Visual Context

Resumo

Support