Grandes Modelos Multimodais como Classificadores Gerais em Contexto

Resumo

Qual modelo multimodal devemos usar para classificação? Estudos anteriores sugerem que a resposta está nos Modelos de Linguagem e Visão (VLMs) contrastivos do tipo CLIP, devido ao seu desempenho notável em classificação *zero-shot*. Em contraste, os Grandes Modelos Multimodais (LMMs) são mais adequados para tarefas complexas. Neste trabalho, argumentamos que esta resposta negligencia uma capacidade importante dos LMMs: o aprendizado em contexto (*in-context learning*). Avaliamos LMMs de última geração em diversos conjuntos de dados para classificação em mundo fechado e descobrimos que, embora seu desempenho *zero-shot* seja inferior ao do CLIP, os LMMs com alguns exemplos em contexto podem igualar ou mesmo superar os VLMs contrastivos com adaptadores baseados em *cache*, seu equivalente "em contexto". Estendemos esta análise para o cenário de mundo aberto, onde a natureza generativa dos LMMs os torna mais adequados para a tarefa. Neste cenário desafiador, os LMMs apresentam dificuldades sempre que recebem informações de contexto imperfeitas. Para resolver este problema, propomos o CIRCLE, um método simples, sem necessidade de treinamento, que atribui *pseudo-labels* aos exemplos em contexto, refinando-os iterativamente com o próprio contexto disponível. Através de extensos experimentos, mostramos que o CIRCLE estabelece uma base robusta para classificação em mundo aberto, superando as contrapartes VLM e destacando o potencial dos LMMs para atuar como classificadores unificados e uma alternativa flexível a modelos especializados.

English

Which multimodal model should we use for classification? Previous studies suggest that the answer lies in CLIP-like contrastive Vision-Language Models (VLMs), due to their remarkable performance in zero-shot classification. In contrast, Large Multimodal Models (LMM) are more suitable for complex tasks. In this work, we argue that this answer overlooks an important capability of LMMs: in-context learning. We benchmark state-of-the-art LMMs on diverse datasets for closed-world classification and find that, although their zero-shot performance is lower than CLIP's, LMMs with a few in-context examples can match or even surpass contrastive VLMs with cache-based adapters, their "in-context" equivalent. We extend this analysis to the open-world setting, where the generative nature of LMMs makes them more suitable for the task. In this challenging scenario, LMMs struggle whenever provided with imperfect context information. To address this issue, we propose CIRCLE, a simple training-free method that assigns pseudo-labels to in-context examples, iteratively refining them with the available context itself. Through extensive experiments, we show that CIRCLE establishes a robust baseline for open-world classification, surpassing VLM counterparts and highlighting the potential of LMMs to serve as unified classifiers, and a flexible alternative to specialized models.