Aprendizado por reforço com consciência da especificidade para classificação de mundo aberto em granularidade fina

Resumo

A classificação de conceitos visuais de granularidade fina em configurações de mundo aberto, ou seja, sem um conjunto de rótulos predefinido, exige que os modelos sejam precisos e específicos. Os recentes Modelos Multimodais de Grande Porte (LMMs) com capacidade de raciocínio exibem forte capacidade de compreensão visual, mas tendem a produzir previsões excessivamente genéricas ao realizar classificação de imagens de granularidade fina. Nossa análise preliminar revela que os modelos possuem de fato o conhecimento intrínseco do domínio de granularidade fina. No entanto, promover previsões mais específicas (especificidade) sem comprometer as corretas (correção) permanece um desafio não trivial e pouco estudado. Neste trabalho, investigamos como direcionar LMMs de raciocínio para previsões que sejam corretas e específicas. Propomos uma nova estrutura de aprendizagem por reforço consciente da especificidade, SpeciaRL, para ajustar finamente LMMs de raciocínio na classificação de imagens de granularidade fina sob a configuração de mundo aberto. O SpeciaRL introduz um sinal de recompensa dinâmico, baseado em um verificador e ancorado às melhores previsões dentro de rollouts online, promovendo a especificidade enquanto respeita as capacidades do modelo para evitar previsões incorretas. Nossos experimentos fora do domínio mostram que o SpeciaRL oferece o melhor equilíbrio entre correção e especificidade em extensos benchmarks de granularidade fina, superando métodos existentes e avançando a classificação de imagens de granularidade fina em mundo aberto. O código e o modelo estão publicamente disponíveis em https://github.com/s-angheben/SpeciaRL.

English

Classifying fine-grained visual concepts under open-world settings, i.e., without a predefined label set, demands models to be both accurate and specific. Recent reasoning Large Multimodal Models (LMMs) exhibit strong visual understanding capability but tend to produce overly generic predictions when performing fine-grained image classification. Our preliminary analysis reveals that models do possess the intrinsic fine-grained domain knowledge. However, promoting more specific predictions (specificity) without compromising correct ones (correctness) remains a non-trivial and understudied challenge. In this work, we investigate how to steer reasoning LMMs toward predictions that are both correct and specific. We propose a novel specificity-aware reinforcement learning framework, SpeciaRL, to fine-tune reasoning LMMs on fine-grained image classification under the open-world setting. SpeciaRL introduces a dynamic, verifier-based reward signal anchored to the best predictions within online rollouts, promoting specificity while respecting the model's capabilities to prevent incorrect predictions. Our out-of-domain experiments show that SpeciaRL delivers the best trade-off between correctness and specificity across extensive fine-grained benchmarks, surpassing existing methods and advancing open-world fine-grained image classification. Code and model are publicly available at https://github.com/s-angheben/SpeciaRL.

Aprendizado por reforço com consciência da especificidade para classificação de mundo aberto em granularidade fina

Specificity-aware reinforcement learning for fine-grained open-world classification

Resumo

Support