Echtes multimodales In-Context-Lernen erfordert Aufmerksamkeit für den visuellen Kontext
True Multimodal In-Context Learning Needs Attention to the Visual Context
July 21, 2025
papers.authors: Shuo Chen, Jianzhe Liu, Zhen Han, Yan Xia, Daniel Cremers, Philip Torr, Volker Tresp, Jindong Gu
cs.AI
papers.abstract
Multimodale Large Language Models (MLLMs), die auf leistungsstarken Sprachmodellen basieren, haben Multimodales In-Context Learning (MICL) ermöglicht – die Anpassung an neue Aufgaben anhand weniger multimodaler Demonstrationen, die Bilder, Fragen und Antworten enthalten. Trotz bemerkenswerter Verbesserungen bei standardisierten Vision-Language-Datensätzen haben aktuelle MLLMs Schwierigkeiten, visuelle Informationen in den Demonstrationen effektiv zu nutzen. Insbesondere neigen sie dazu, visuelle Hinweise zu vernachlässigen und sich übermäßig auf textuelle Muster zu verlassen, was zu bloßer Textnachahmung anstatt echter multimodaler Anpassung führt. Dieses Verhalten macht MICL weiterhin unimodal und schränkt dessen praktischen Nutzen erheblich ein. Noch wichtiger ist, dass diese Einschränkung oft durch verbesserte Leistungen bei Aufgaben verdeckt wird, die kein Verständnis des visuellen Kontexts erfordern. Infolgedessen bleibt die Frage, wie die MICL-Fähigkeit effektiv gesteigert und die MICL-Leistung zuverlässig bewertet werden kann, weitgehend unerforscht. Um diese Probleme zu adressieren, führen wir zunächst Dynamic Attention Reallocation (DARA) ein, eine effiziente Feinabstimmungsstrategie, die Modelle dazu anregt, den visuellen Kontext stärker zu berücksichtigen, indem die Aufmerksamkeit zwischen visuellen und textuellen Tokens neu ausbalanciert wird. Zusätzlich präsentieren wir TrueMICL, einen MICL-spezifischen Datensatz mit sowohl Unterstützungs- als auch Testdatensätzen, der explizit die Integration multimodaler Informationen – insbesondere visueller Inhalte – für die korrekte Aufgabenbewältigung erfordert. Umfangreiche Experimente demonstrieren die Wirksamkeit unserer ganzheitlichen Lösung und zeigen erhebliche Verbesserungen in den echten multimodalen In-Context-Lernfähigkeiten. Code und Datensätze sind unter https://chenxshuo.github.io/true-micl-colm verfügbar.
English
Multimodal Large Language Models (MLLMs), built on powerful language
backbones, have enabled Multimodal In-Context Learning (MICL)-adapting to new
tasks from a few multimodal demonstrations consisting of images, questions, and
answers. Despite showing noticeable improvement on standard vision-language
datasets, current MLLMs struggle to leverage visual information in the
demonstrations. Specifically, they tend to neglect visual cues and over-rely on
textual patterns, leading to mere text imitation rather than genuine multimodal
adaptation. This behavior makes MICL still unimodal and largely restricts its
practical utility. More importantly, this limitation is often concealed by the
improved performance on tasks that do not require understanding the visual
context. As a result, how to effectively enhance MICL ability and reliably
evaluate the MICL performance remains underexplored. To address these issues,
we first introduce Dynamic Attention Reallocation (DARA), an efficient
fine-tuning strategy that encourages models to attend to the visual context by
rebalancing attention across visual and textual tokens. In addition, we present
TrueMICL, an MICL-dedicated dataset with both support and test sets that
explicitly requires the integration of multimodal information-particularly
visual content-for correct task completion. Extensive experiments demonstrate
the effectiveness of our holistic solution, showcasing substantial improvements
in the true multimodal in-context learning capabilities. Code and datasets are
available at https://chenxshuo.github.io/true-micl-colm .