Aprendizaje por refuerzo con conciencia de la especificidad para la clasificación de grano fino en mundo abierto

Resumen

La clasificación de conceptos visuales de grano fino en entornos de mundo abierto, es decir, sin un conjunto de etiquetas predefinido, exige que los modelos sean precisos y específicos. Los modelos de razonamiento multimodal de gran tamaño (LMMs) recientes exhiben una fuerte capacidad de comprensión visual, pero tienden a producir predicciones excesivamente genéricas al realizar clasificación de imágenes de grano fino. Nuestro análisis preliminar revela que los modelos sí poseen el conocimiento intrínseco del dominio de grano fino. Sin embargo, promover predicciones más específicas (especificidad) sin comprometer las correctas (corrección) sigue siendo un desafío no trivial y poco estudiado. En este trabajo, investigamos cómo dirigir los LMMs de razonamiento hacia predicciones que sean tanto correctas como específicas. Proponemos un novedoso marco de aprendizaje por refuerzo consciente de la especificidad, SpeciaRL, para afinar LMMs de razonamiento en clasificación de imágenes de grano fino bajo el entorno de mundo abierto. SpeciaRL introduce una señal de recompensa dinámica basada en un verificador, anclada a las mejores predicciones dentro de desarrollos en línea, promoviendo la especificidad mientras respeta las capacidades del modelo para evitar predicciones incorrectas. Nuestros experimentos fuera de dominio muestran que SpeciaRL ofrece el mejor equilibrio entre corrección y especificidad en extensos benchmarks de grano fino, superando a los métodos existentes y avanzando en la clasificación de imágenes de grano fino en mundo abierto. El código y el modelo están disponibles públicamente en https://github.com/s-angheben/SpeciaRL.

English

Classifying fine-grained visual concepts under open-world settings, i.e., without a predefined label set, demands models to be both accurate and specific. Recent reasoning Large Multimodal Models (LMMs) exhibit strong visual understanding capability but tend to produce overly generic predictions when performing fine-grained image classification. Our preliminary analysis reveals that models do possess the intrinsic fine-grained domain knowledge. However, promoting more specific predictions (specificity) without compromising correct ones (correctness) remains a non-trivial and understudied challenge. In this work, we investigate how to steer reasoning LMMs toward predictions that are both correct and specific. We propose a novel specificity-aware reinforcement learning framework, SpeciaRL, to fine-tune reasoning LMMs on fine-grained image classification under the open-world setting. SpeciaRL introduces a dynamic, verifier-based reward signal anchored to the best predictions within online rollouts, promoting specificity while respecting the model's capabilities to prevent incorrect predictions. Our out-of-domain experiments show that SpeciaRL delivers the best trade-off between correctness and specificity across extensive fine-grained benchmarks, surpassing existing methods and advancing open-world fine-grained image classification. Code and model are publicly available at https://github.com/s-angheben/SpeciaRL.

Aprendizaje por refuerzo con conciencia de la especificidad para la clasificación de grano fino en mundo abierto

Specificity-aware reinforcement learning for fine-grained open-world classification

Resumen

Support