ChatPaper.aiChatPaper

Sur les grands modèles multimodaux en tant que classificateurs d'images pour des mondes ouverts

On Large Multimodal Models as Open-World Image Classifiers

March 27, 2025
Auteurs: Alessandro Conti, Massimiliano Mancini, Enrico Fini, Yiming Wang, Paolo Rota, Elisa Ricci
cs.AI

Résumé

La classification d'images traditionnelle nécessite une liste prédéfinie de catégories sémantiques. En revanche, les modèles multimodaux de grande taille (LMMs) peuvent contourner cette exigence en classifiant directement les images à l'aide du langage naturel (par exemple, en répondant à la question "Quel est l'objet principal dans l'image ?"). Malgré cette capacité remarquable, la plupart des études existantes sur les performances de classification des LMMs sont étonnamment limitées en portée, supposant souvent un cadre en monde fermé avec un ensemble prédéfini de catégories. Dans ce travail, nous comblons cette lacune en évaluant minutieusement les performances de classification des LMMs dans un véritable cadre en monde ouvert. Nous formalisons d'abord la tâche et introduisons un protocole d'évaluation, définissant diverses métriques pour évaluer l'alignement entre les classes prédites et les classes de référence. Nous évaluons ensuite 13 modèles sur 10 benchmarks, couvrant des classes prototypiques, non prototypiques, fines et très fines, démontrant les défis auxquels les LMMs sont confrontés dans cette tâche. Des analyses supplémentaires basées sur les métriques proposées révèlent les types d'erreurs commises par les LMMs, mettant en lumière les défis liés à la granularité et aux capacités fines, et montrant comment des incitations et des raisonnements adaptés peuvent les atténuer.
English
Traditional image classification requires a predefined list of semantic categories. In contrast, Large Multimodal Models (LMMs) can sidestep this requirement by classifying images directly using natural language (e.g., answering the prompt "What is the main object in the image?"). Despite this remarkable capability, most existing studies on LMM classification performance are surprisingly limited in scope, often assuming a closed-world setting with a predefined set of categories. In this work, we address this gap by thoroughly evaluating LMM classification performance in a truly open-world setting. We first formalize the task and introduce an evaluation protocol, defining various metrics to assess the alignment between predicted and ground truth classes. We then evaluate 13 models across 10 benchmarks, encompassing prototypical, non-prototypical, fine-grained, and very fine-grained classes, demonstrating the challenges LMMs face in this task. Further analyses based on the proposed metrics reveal the types of errors LMMs make, highlighting challenges related to granularity and fine-grained capabilities, showing how tailored prompting and reasoning can alleviate them.

Summary

AI-Generated Summary

PDF52March 31, 2025