Über große multimodale Modelle als Open-World-Bildklassifikatoren
On Large Multimodal Models as Open-World Image Classifiers
March 27, 2025
Autoren: Alessandro Conti, Massimiliano Mancini, Enrico Fini, Yiming Wang, Paolo Rota, Elisa Ricci
cs.AI
Zusammenfassung
Die traditionelle Bildklassifizierung erfordert eine vordefinierte Liste semantischer Kategorien. Im Gegensatz dazu können Large Multimodal Models (LMMs) diese Anforderung umgehen, indem sie Bilder direkt mithilfe natürlicher Sprache klassifizieren (z. B. durch die Beantwortung der Aufforderung „Was ist das Hauptobjekt im Bild?“). Trotz dieser bemerkenswerten Fähigkeit sind die meisten bestehenden Studien zur Klassifizierungsleistung von LMMs überraschend begrenzt in ihrem Umfang und gehen oft von einer geschlossenen Welt mit einem vordefinierten Satz von Kategorien aus. In dieser Arbeit schließen wir diese Lücke, indem wir die Klassifizierungsleistung von LMMs in einer wirklich offenen Welt gründlich evaluieren. Wir formalisieren zunächst die Aufgabe und führen ein Evaluationsprotokoll ein, das verschiedene Metriken definiert, um die Übereinstimmung zwischen vorhergesagten und tatsächlichen Klassen zu bewerten. Anschließend evaluieren wir 13 Modelle über 10 Benchmarks hinweg, die prototypische, nicht-prototypische, fein abgestufte und sehr fein abgestufte Klassen umfassen, und demonstrieren die Herausforderungen, denen LMMs bei dieser Aufgabe gegenüberstehen. Weitere Analysen auf Basis der vorgeschlagenen Metriken zeigen die Arten von Fehlern, die LMMs machen, und heben Herausforderungen in Bezug auf Granularität und fein abgestufte Fähigkeiten hervor, wobei sie zeigen, wie maßgeschneiderte Aufforderungen und logisches Denken diese lindern können.
English
Traditional image classification requires a predefined list of semantic
categories. In contrast, Large Multimodal Models (LMMs) can sidestep this
requirement by classifying images directly using natural language (e.g.,
answering the prompt "What is the main object in the image?"). Despite this
remarkable capability, most existing studies on LMM classification performance
are surprisingly limited in scope, often assuming a closed-world setting with a
predefined set of categories. In this work, we address this gap by thoroughly
evaluating LMM classification performance in a truly open-world setting. We
first formalize the task and introduce an evaluation protocol, defining various
metrics to assess the alignment between predicted and ground truth classes. We
then evaluate 13 models across 10 benchmarks, encompassing prototypical,
non-prototypical, fine-grained, and very fine-grained classes, demonstrating
the challenges LMMs face in this task. Further analyses based on the proposed
metrics reveal the types of errors LMMs make, highlighting challenges related
to granularity and fine-grained capabilities, showing how tailored prompting
and reasoning can alleviate them.