Apprentissage par renforcement sensible à la spécificité pour la classification granulaire en monde ouvert

Résumé

La classification de concepts visuels à granularité fine dans des contextes de monde ouvert, c'est-à-dire sans un ensemble d'étiquettes prédéfini, exige des modèles qu'ils soient à la fois précis et spécifiques. Les grands modèles multimodaux (LMM) de raisonnement récents présentent de solides capacités de compréhension visuelle, mais ont tendance à produire des prédictions excessivement génériques lors de la classification d'images à granularité fine. Notre analyse préliminaire révèle que les modèles possèdent bel et bien les connaissances intrinsèques du domaine à granularité fine. Cependant, favoriser des prédictions plus spécifiques (spécificité) sans compromettre les prédictions correctes (exactitude) reste un défi non trivial et peu étudié. Dans ce travail, nous étudions comment orienter les LMM de raisonnement vers des prédictions à la fois correctes et spécifiques. Nous proposons un nouveau cadre d'apprentissage par renforcement sensible à la spécificité, SpeciaRL, pour affiner les LMM de raisonnement sur la classification d'images à granularité fine en monde ouvert. SpeciaRL introduit un signal de récompense dynamique, basé sur un vérificateur et ancré aux meilleures prédictions dans des déploiements en ligne, favorisant la spécificité tout en respectant les capacités du modèle pour éviter les prédictions incorrectes. Nos expériences hors domaine montrent que SpeciaRL offre le meilleur compromis entre exactitude et spécificité sur de nombreux benchmarks à granularité fine, surpassant les méthodes existantes et faisant progresser la classification d'images à granularité fine en monde ouvert. Le code et le modèle sont disponibles publiquement à l'adresse https://github.com/s-angheben/SpeciaRL.

English

Classifying fine-grained visual concepts under open-world settings, i.e., without a predefined label set, demands models to be both accurate and specific. Recent reasoning Large Multimodal Models (LMMs) exhibit strong visual understanding capability but tend to produce overly generic predictions when performing fine-grained image classification. Our preliminary analysis reveals that models do possess the intrinsic fine-grained domain knowledge. However, promoting more specific predictions (specificity) without compromising correct ones (correctness) remains a non-trivial and understudied challenge. In this work, we investigate how to steer reasoning LMMs toward predictions that are both correct and specific. We propose a novel specificity-aware reinforcement learning framework, SpeciaRL, to fine-tune reasoning LMMs on fine-grained image classification under the open-world setting. SpeciaRL introduces a dynamic, verifier-based reward signal anchored to the best predictions within online rollouts, promoting specificity while respecting the model's capabilities to prevent incorrect predictions. Our out-of-domain experiments show that SpeciaRL delivers the best trade-off between correctness and specificity across extensive fine-grained benchmarks, surpassing existing methods and advancing open-world fine-grained image classification. Code and model are publicly available at https://github.com/s-angheben/SpeciaRL.

Apprentissage par renforcement sensible à la spécificité pour la classification granulaire en monde ouvert

Specificity-aware reinforcement learning for fine-grained open-world classification

Résumé

Support