Specificiteit-bewuste reinforcement learning voor fijnmazige open-wereldclassificatie
Specificity-aware reinforcement learning for fine-grained open-world classification
March 3, 2026
Auteurs: Samuele Angheben, Davide Berasi, Alessandro Conti, Elisa Ricci, Yiming Wang
cs.AI
Samenvatting
Het classificeren van fijnmazige visuele concepten in open-wereldomgevingen, d.w.z. zonder een vooraf gedefinieerde set labels, vereist dat modellen zowel nauwkeurig als specifiek zijn. Recente redenerende grote multimodale modellen (LMM's) vertonen een sterk visueel begripsvermogen, maar hebben de neiging tot overdreven generieke voorspellingen bij het uitvoeren van fijnmazige beeldclassificatie. Onze voorlopige analyse toont aan dat modellen wel degelijk intrinsieke fijnmazige domeinkennis bezitten. Het bevorderen van specifiekere voorspellingen (specificiteit) zonder correcte voorspellingen (correctheid) aan te tasten, blijft echter een niet-triviale en onderbelichte uitdaging. In dit werk onderzoeken we hoe redenerende LMM's gestuurd kunnen worden naar voorspellingen die zowel correct als specifiek zijn. Wij stellen een nieuw specificiteitsbewust reinforcement learning-raamwerk voor, SpeciaRL, om redenerende LMM's te finetunen voor fijnmazige beeldclassificatie in een open-wereldomgeving. SpeciaRL introduceert een dynamisch, op een verifier gebaseerd beloningssignaal verankerd aan de beste voorspellingen binnen online rollouts, om specificiteit te bevorderen met respect voor de capaciteiten van het model om incorrecte voorspellingen te voorkomen. Onze out-of-domain experimenten tonen aan dat SpeciaRL de beste balans biedt tussen correctheid en specificiteit over uitgebreide fijnmazige benchmarks, waarbij bestaande methoden worden overtroffen en de open-wereld fijnmazige beeldclassificatie wordt gevorderd. Code en model zijn openbaar beschikbaar op https://github.com/s-angheben/SpeciaRL.
English
Classifying fine-grained visual concepts under open-world settings, i.e., without a predefined label set, demands models to be both accurate and specific. Recent reasoning Large Multimodal Models (LMMs) exhibit strong visual understanding capability but tend to produce overly generic predictions when performing fine-grained image classification. Our preliminary analysis reveals that models do possess the intrinsic fine-grained domain knowledge. However, promoting more specific predictions (specificity) without compromising correct ones (correctness) remains a non-trivial and understudied challenge. In this work, we investigate how to steer reasoning LMMs toward predictions that are both correct and specific. We propose a novel specificity-aware reinforcement learning framework, SpeciaRL, to fine-tune reasoning LMMs on fine-grained image classification under the open-world setting. SpeciaRL introduces a dynamic, verifier-based reward signal anchored to the best predictions within online rollouts, promoting specificity while respecting the model's capabilities to prevent incorrect predictions. Our out-of-domain experiments show that SpeciaRL delivers the best trade-off between correctness and specificity across extensive fine-grained benchmarks, surpassing existing methods and advancing open-world fine-grained image classification. Code and model are publicly available at https://github.com/s-angheben/SpeciaRL.