O Verdadeiro Aprendizado Multimodal em Contexto Requer Atenção ao Contexto Visual
True Multimodal In-Context Learning Needs Attention to the Visual Context
July 21, 2025
Autores: Shuo Chen, Jianzhe Liu, Zhen Han, Yan Xia, Daniel Cremers, Philip Torr, Volker Tresp, Jindong Gu
cs.AI
Resumo
Modelos de Linguagem Multimodais de Grande Escala (MLLMs), construídos sobre bases linguísticas poderosas, têm possibilitado o Aprendizado em Contexto Multimodal (MICL) - adaptando-se a novas tarefas a partir de algumas demonstrações multimodais compostas por imagens, perguntas e respostas. Apesar de mostrarem melhorias perceptíveis em conjuntos de dados padrão de visão e linguagem, os MLLMs atuais lutam para aproveitar as informações visuais nas demonstrações. Especificamente, eles tendem a negligenciar pistas visuais e a depender excessivamente de padrões textuais, levando a uma mera imitação de texto em vez de uma adaptação multimodal genuína. Esse comportamento faz com que o MICL ainda seja unimodal e restrinja amplamente sua utilidade prática. Mais importante ainda, essa limitação é frequentemente ocultada pelo desempenho aprimorado em tarefas que não exigem a compreensão do contexto visual. Como resultado, como efetivamente aprimorar a capacidade do MICL e avaliar de forma confiável o desempenho do MICL permanece pouco explorado. Para abordar essas questões, primeiro introduzimos a Realocação Dinâmica de Atenção (DARA), uma estratégia eficiente de ajuste fino que incentiva os modelos a prestarem atenção ao contexto visual, reequilibrando a atenção entre tokens visuais e textuais. Além disso, apresentamos o TrueMICL, um conjunto de dados dedicado ao MICL com conjuntos de suporte e teste que exigem explicitamente a integração de informações multimodais - particularmente conteúdo visual - para a conclusão correta da tarefa. Experimentos extensivos demonstram a eficácia de nossa solução holística, mostrando melhorias substanciais nas verdadeiras capacidades de aprendizado em contexto multimodal. Códigos e conjuntos de dados estão disponíveis em https://chenxshuo.github.io/true-micl-colm.
English
Multimodal Large Language Models (MLLMs), built on powerful language
backbones, have enabled Multimodal In-Context Learning (MICL)-adapting to new
tasks from a few multimodal demonstrations consisting of images, questions, and
answers. Despite showing noticeable improvement on standard vision-language
datasets, current MLLMs struggle to leverage visual information in the
demonstrations. Specifically, they tend to neglect visual cues and over-rely on
textual patterns, leading to mere text imitation rather than genuine multimodal
adaptation. This behavior makes MICL still unimodal and largely restricts its
practical utility. More importantly, this limitation is often concealed by the
improved performance on tasks that do not require understanding the visual
context. As a result, how to effectively enhance MICL ability and reliably
evaluate the MICL performance remains underexplored. To address these issues,
we first introduce Dynamic Attention Reallocation (DARA), an efficient
fine-tuning strategy that encourages models to attend to the visual context by
rebalancing attention across visual and textual tokens. In addition, we present
TrueMICL, an MICL-dedicated dataset with both support and test sets that
explicitly requires the integration of multimodal information-particularly
visual content-for correct task completion. Extensive experiments demonstrate
the effectiveness of our holistic solution, showcasing substantial improvements
in the true multimodal in-context learning capabilities. Code and datasets are
available at https://chenxshuo.github.io/true-micl-colm .