Spezifitätsbewusstes bestärkendes Lernen für feinkörnige Klassifizierung in offenen Welten

Zusammenfassung

Die Klassifizierung fein granulärer visueller Konzepte unter Open-World-Bedingungen, d.h. ohne vordefinierten Labelsatz, erfordert Modelle, die sowohl präzise als auch spezifisch sind. Aktuelle Reasoning Large Multimodal Models (LMMs) zeigen zwar starke Fähigkeiten im visuellen Verständnis, neigen jedoch bei der fein granulären Bildklassifizierung zu übermäßig generischen Vorhersagen. Unsere vorläufige Analyse zeigt, dass die Modelle durchaus über intrinsisches fein granuliertes Domänenwissen verfügen. Die Förderung spezifischerer Vorhersagen (Spezifität) ohne Beeinträchtigung korrekter Vorhersagen (Korrektheit) bleibt jedoch eine nicht-triviale und wenig untersuchte Herausforderung. In dieser Arbeit untersuchen wir, wie Reasoning-LMMs zu Vorhersagen gesteuert werden können, die sowohl korrekt als auch spezifisch sind. Wir schlagen einen neuartigen spezifitätsbewussten Reinforcement-Learning-Rahmen, SpeciaRL, vor, um Reasoning-LMMs für fein granuläre Bildklassifizierung unter Open-World-Bedingungen zu feinabstimmen. SpeciaRL führt ein dynamisches, verifikatorbasiertes Belohnungssignal ein, das an die besten Vorhersagen innerhalb von Online-Rollouts geknüpft ist, um Spezifität zu fördern und gleichzeitig die Fähigkeiten des Modells zu respektieren, um falsche Vorhersagen zu verhindern. Unsere Out-of-Domain-Experimente zeigen, dass SpeciaRL den besten Kompromiss zwischen Korrektheit und Spezifität über umfangreiche fein granuläre Benchmarks hinweg erreicht und damit bestehende Methoden übertrifft sowie die Open-World fein granuläre Bildklassifizierung voranbringt. Code und Modell sind öffentlich verfügbar unter https://github.com/s-angheben/SpeciaRL.

English

Classifying fine-grained visual concepts under open-world settings, i.e., without a predefined label set, demands models to be both accurate and specific. Recent reasoning Large Multimodal Models (LMMs) exhibit strong visual understanding capability but tend to produce overly generic predictions when performing fine-grained image classification. Our preliminary analysis reveals that models do possess the intrinsic fine-grained domain knowledge. However, promoting more specific predictions (specificity) without compromising correct ones (correctness) remains a non-trivial and understudied challenge. In this work, we investigate how to steer reasoning LMMs toward predictions that are both correct and specific. We propose a novel specificity-aware reinforcement learning framework, SpeciaRL, to fine-tune reasoning LMMs on fine-grained image classification under the open-world setting. SpeciaRL introduces a dynamic, verifier-based reward signal anchored to the best predictions within online rollouts, promoting specificity while respecting the model's capabilities to prevent incorrect predictions. Our out-of-domain experiments show that SpeciaRL delivers the best trade-off between correctness and specificity across extensive fine-grained benchmarks, surpassing existing methods and advancing open-world fine-grained image classification. Code and model are publicly available at https://github.com/s-angheben/SpeciaRL.

Spezifitätsbewusstes bestärkendes Lernen für feinkörnige Klassifizierung in offenen Welten

Specificity-aware reinforcement learning for fine-grained open-world classification

Zusammenfassung

Support