Über große multimodale Modelle als Open-World-Bildklassifikatoren

papers.abstract

Die traditionelle Bildklassifizierung erfordert eine vordefinierte Liste semantischer Kategorien. Im Gegensatz dazu können Large Multimodal Models (LMMs) diese Anforderung umgehen, indem sie Bilder direkt mithilfe natürlicher Sprache klassifizieren (z. B. durch die Beantwortung der Aufforderung „Was ist das Hauptobjekt im Bild?“). Trotz dieser bemerkenswerten Fähigkeit sind die meisten bestehenden Studien zur Klassifizierungsleistung von LMMs überraschend begrenzt in ihrem Umfang und gehen oft von einer geschlossenen Welt mit einem vordefinierten Satz von Kategorien aus. In dieser Arbeit schließen wir diese Lücke, indem wir die Klassifizierungsleistung von LMMs in einer wirklich offenen Welt gründlich evaluieren. Wir formalisieren zunächst die Aufgabe und führen ein Evaluationsprotokoll ein, das verschiedene Metriken definiert, um die Übereinstimmung zwischen vorhergesagten und tatsächlichen Klassen zu bewerten. Anschließend evaluieren wir 13 Modelle über 10 Benchmarks hinweg, die prototypische, nicht-prototypische, fein abgestufte und sehr fein abgestufte Klassen umfassen, und demonstrieren die Herausforderungen, denen LMMs bei dieser Aufgabe gegenüberstehen. Weitere Analysen auf Basis der vorgeschlagenen Metriken zeigen die Arten von Fehlern, die LMMs machen, und heben Herausforderungen in Bezug auf Granularität und fein abgestufte Fähigkeiten hervor, wobei sie zeigen, wie maßgeschneiderte Aufforderungen und logisches Denken diese lindern können.

English

Traditional image classification requires a predefined list of semantic categories. In contrast, Large Multimodal Models (LMMs) can sidestep this requirement by classifying images directly using natural language (e.g., answering the prompt "What is the main object in the image?"). Despite this remarkable capability, most existing studies on LMM classification performance are surprisingly limited in scope, often assuming a closed-world setting with a predefined set of categories. In this work, we address this gap by thoroughly evaluating LMM classification performance in a truly open-world setting. We first formalize the task and introduce an evaluation protocol, defining various metrics to assess the alignment between predicted and ground truth classes. We then evaluate 13 models across 10 benchmarks, encompassing prototypical, non-prototypical, fine-grained, and very fine-grained classes, demonstrating the challenges LMMs face in this task. Further analyses based on the proposed metrics reveal the types of errors LMMs make, highlighting challenges related to granularity and fine-grained capabilities, showing how tailored prompting and reasoning can alleviate them.

Über große multimodale Modelle als Open-World-Bildklassifikatoren

On Large Multimodal Models as Open-World Image Classifiers

papers.abstract

Support