Große multimodale Modelle als allgemeine In-Context-Klassifikatoren
Large Multimodal Models as General In-Context Classifiers
February 26, 2026
Autoren: Marco Garosi, Matteo Farina, Alessandro Conti, Massimiliano Mancini, Elisa Ricci
cs.AI
Zusammenfassung
Welches multimodale Modell sollten wir für die Klassifizierung verwenden? Bisherige Studien legen nahe, dass die Antwort in CLIP-ähnlichen kontrastiven Vision-Language-Modellen (VLMs) liegt, aufgrund ihrer bemerkenswerten Leistung bei der Zero-Shot-Klassifizierung. Im Gegensatz dazu sind Large Multimodal Models (LMMs) besser für komplexere Aufgaben geeignet. In dieser Arbeit argumentieren wir, dass diese Antwort eine wichtige Fähigkeit von LMMs übersieht: In-Context-Learning. Wir benchmarken state-of-the-art LMMs auf diversen Datensätzen für Closed-World-Klassifizierung und stellen fest, dass – obwohl ihre Zero-Shot-Leistung niedriger ist als die von CLIP – LMMs mit wenigen In-Context-Beispielen kontrastive VLMs mit Cache-basierten Adaptern (ihr "In-Context"-Äquivalent) erreichen oder sogar übertreffen können. Wir erweitern diese Analyse auf das Open-World-Setting, in dem die generative Natur von LMMs sie besser für die Aufgabe geeignet macht. In diesem anspruchsvollen Szenario scheitern LMMs jedoch, wenn sie mit unvollständigen Kontextinformationen versorgt werden. Um dieses Problem zu adressieren, schlagen wir CIRCLE vor, eine einfache, trainingsfreie Methode, die In-Context-Beispielen Pseudolabels zuweist und diese iterativ mit dem verfügbaren Kontext selbst verfeinert. Durch umfangreiche Experimente zeigen wir, dass CIRCLE eine robuste Baseline für Open-World-Klassifizierung etabliert, VLM-Pendants übertrifft und das Potenzial von LMMs unterstreicht, als vereinheitlichte Klassifikatoren und flexible Alternative zu spezialisierten Modellen zu dienen.
English
Which multimodal model should we use for classification? Previous studies suggest that the answer lies in CLIP-like contrastive Vision-Language Models (VLMs), due to their remarkable performance in zero-shot classification. In contrast, Large Multimodal Models (LMM) are more suitable for complex tasks. In this work, we argue that this answer overlooks an important capability of LMMs: in-context learning. We benchmark state-of-the-art LMMs on diverse datasets for closed-world classification and find that, although their zero-shot performance is lower than CLIP's, LMMs with a few in-context examples can match or even surpass contrastive VLMs with cache-based adapters, their "in-context" equivalent. We extend this analysis to the open-world setting, where the generative nature of LMMs makes them more suitable for the task. In this challenging scenario, LMMs struggle whenever provided with imperfect context information. To address this issue, we propose CIRCLE, a simple training-free method that assigns pseudo-labels to in-context examples, iteratively refining them with the available context itself. Through extensive experiments, we show that CIRCLE establishes a robust baseline for open-world classification, surpassing VLM counterparts and highlighting the potential of LMMs to serve as unified classifiers, and a flexible alternative to specialized models.