Apprendimento per rinforzo con consapevolezza della specificità per la classificazione granulare in contesti open-world
Specificity-aware reinforcement learning for fine-grained open-world classification
March 3, 2026
Autori: Samuele Angheben, Davide Berasi, Alessandro Conti, Elisa Ricci, Yiming Wang
cs.AI
Abstract
La classificazione di concetti visivi a grana fine in contesti open-world, ovvero senza un insieme di etichette predefinito, richiede modelli che siano sia accurati che specifici. I recenti Large Multimodal Model (LMM) di ragionamento mostrano una forte capacità di comprensione visiva, ma tendono a produrre previsioni eccessivamente generiche quando eseguono classificazioni di immagini a grana fine. La nostra analisi preliminare rivela che i modelli possiedono effettivamente la conoscenza intrinseca del dominio a grana fine. Tuttavia, promuovere previsioni più specifiche (specificità) senza compromettere quelle corrette (correttezza) rimane una sfida non banale e poco studiata. In questo lavoro, indaghiamo come indirizzare gli LMM di ragionamento verso previsioni che siano sia corrette che specifiche. Proponiamo una nuova framework di reinforcement learning sensibile alla specificità, SpeciaRL, per effettuare il fine-tuning di LMM di ragionamento sulla classificazione di immagini a grana fine in contesto open-world. SpeciaRL introduce un segnale di reward dinamico, basato su un verificatore e ancorato alle migliori previsioni all'interno di rollout online, promuovendo la specificità rispettando al contempo le capacità del modello per prevenire previsioni errate. I nostri esperimenti out-of-domain mostrano che SpeciaRL offre il miglior compromesso tra correttezza e specificità su un'ampia serie di benchmark a grana fine, superando i metodi esistenti e facendo avanzare la classificazione di immagini a grana fine in contesto open-world. Il codice e il modello sono pubblicamente disponibili all'indirizzo https://github.com/s-angheben/SpeciaRL.
English
Classifying fine-grained visual concepts under open-world settings, i.e., without a predefined label set, demands models to be both accurate and specific. Recent reasoning Large Multimodal Models (LMMs) exhibit strong visual understanding capability but tend to produce overly generic predictions when performing fine-grained image classification. Our preliminary analysis reveals that models do possess the intrinsic fine-grained domain knowledge. However, promoting more specific predictions (specificity) without compromising correct ones (correctness) remains a non-trivial and understudied challenge. In this work, we investigate how to steer reasoning LMMs toward predictions that are both correct and specific. We propose a novel specificity-aware reinforcement learning framework, SpeciaRL, to fine-tune reasoning LMMs on fine-grained image classification under the open-world setting. SpeciaRL introduces a dynamic, verifier-based reward signal anchored to the best predictions within online rollouts, promoting specificity while respecting the model's capabilities to prevent incorrect predictions. Our out-of-domain experiments show that SpeciaRL delivers the best trade-off between correctness and specificity across extensive fine-grained benchmarks, surpassing existing methods and advancing open-world fine-grained image classification. Code and model are publicly available at https://github.com/s-angheben/SpeciaRL.