Echtes multimodales In-Context-Lernen erfordert Aufmerksamkeit für den visuellen Kontext

papers.abstract

Multimodale Large Language Models (MLLMs), die auf leistungsstarken Sprachmodellen basieren, haben Multimodales In-Context Learning (MICL) ermöglicht – die Anpassung an neue Aufgaben anhand weniger multimodaler Demonstrationen, die Bilder, Fragen und Antworten enthalten. Trotz bemerkenswerter Verbesserungen bei standardisierten Vision-Language-Datensätzen haben aktuelle MLLMs Schwierigkeiten, visuelle Informationen in den Demonstrationen effektiv zu nutzen. Insbesondere neigen sie dazu, visuelle Hinweise zu vernachlässigen und sich übermäßig auf textuelle Muster zu verlassen, was zu bloßer Textnachahmung anstatt echter multimodaler Anpassung führt. Dieses Verhalten macht MICL weiterhin unimodal und schränkt dessen praktischen Nutzen erheblich ein. Noch wichtiger ist, dass diese Einschränkung oft durch verbesserte Leistungen bei Aufgaben verdeckt wird, die kein Verständnis des visuellen Kontexts erfordern. Infolgedessen bleibt die Frage, wie die MICL-Fähigkeit effektiv gesteigert und die MICL-Leistung zuverlässig bewertet werden kann, weitgehend unerforscht. Um diese Probleme zu adressieren, führen wir zunächst Dynamic Attention Reallocation (DARA) ein, eine effiziente Feinabstimmungsstrategie, die Modelle dazu anregt, den visuellen Kontext stärker zu berücksichtigen, indem die Aufmerksamkeit zwischen visuellen und textuellen Tokens neu ausbalanciert wird. Zusätzlich präsentieren wir TrueMICL, einen MICL-spezifischen Datensatz mit sowohl Unterstützungs- als auch Testdatensätzen, der explizit die Integration multimodaler Informationen – insbesondere visueller Inhalte – für die korrekte Aufgabenbewältigung erfordert. Umfangreiche Experimente demonstrieren die Wirksamkeit unserer ganzheitlichen Lösung und zeigen erhebliche Verbesserungen in den echten multimodalen In-Context-Lernfähigkeiten. Code und Datensätze sind unter https://chenxshuo.github.io/true-micl-colm verfügbar.

English

Multimodal Large Language Models (MLLMs), built on powerful language backbones, have enabled Multimodal In-Context Learning (MICL)-adapting to new tasks from a few multimodal demonstrations consisting of images, questions, and answers. Despite showing noticeable improvement on standard vision-language datasets, current MLLMs struggle to leverage visual information in the demonstrations. Specifically, they tend to neglect visual cues and over-rely on textual patterns, leading to mere text imitation rather than genuine multimodal adaptation. This behavior makes MICL still unimodal and largely restricts its practical utility. More importantly, this limitation is often concealed by the improved performance on tasks that do not require understanding the visual context. As a result, how to effectively enhance MICL ability and reliably evaluate the MICL performance remains underexplored. To address these issues, we first introduce Dynamic Attention Reallocation (DARA), an efficient fine-tuning strategy that encourages models to attend to the visual context by rebalancing attention across visual and textual tokens. In addition, we present TrueMICL, an MICL-dedicated dataset with both support and test sets that explicitly requires the integration of multimodal information-particularly visual content-for correct task completion. Extensive experiments demonstrate the effectiveness of our holistic solution, showcasing substantial improvements in the true multimodal in-context learning capabilities. Code and datasets are available at https://chenxshuo.github.io/true-micl-colm .

Echtes multimodales In-Context-Lernen erfordert Aufmerksamkeit für den visuellen Kontext

True Multimodal In-Context Learning Needs Attention to the Visual Context

papers.abstract

Support