Специфичное обучение с подкреплением для детальной классификации в открытом мире

Аннотация

Классификация детализированных визуальных концепций в условиях открытого мира, то есть без предопределенного набора меток, требует от моделей одновременно точности и специфичности. Современные рассуждающие большие мультимодальные модели (LMM) демонстрируют мощные способности к визуальному пониманию, но склонны выдавать излишне обобщенные предсказания при выполнении тонкой классификации изображений. Наш предварительный анализ показывает, что модели действительно обладают внутренними знаниями о детализированных доменах. Однако задача стимулирования более специфичных предсказаний (специфичность) без ущерба для верных (правильность) остается нетривиальной и малоизученной проблемой. В данной работе мы исследуем, как направлять рассуждающие LMM к предсказаниям, которые являются одновременно правильными и специфичными. Мы предлагаем новую framework-архитектуру обучения с подкреплением, учитывающую специфичность (SpeciaRL), для тонкой настройки рассуждающих LMM на задачах детализированной классификации изображений в условиях открытого мира. SpeciaRL вводит динамический сигнал вознаграждения на основе верификатора, привязанный к лучшим предсказаниям в рамках онлайн-rollouts, что способствует специфичности, учитывая при этом возможности модели для предотвращения некорректных предсказаний. Наши эксперименты на внешних данных показывают, что SpeciaRL обеспечивает наилучший баланс между правильностью и специфичностью на обширных наборах данных для детализированной классификации, превосходя существующие методы и продвигая вперед классификацию изображений открытого мира с высокой детализацией. Код и модель общедоступны по адресу https://github.com/s-angheben/SpeciaRL.

English

Classifying fine-grained visual concepts under open-world settings, i.e., without a predefined label set, demands models to be both accurate and specific. Recent reasoning Large Multimodal Models (LMMs) exhibit strong visual understanding capability but tend to produce overly generic predictions when performing fine-grained image classification. Our preliminary analysis reveals that models do possess the intrinsic fine-grained domain knowledge. However, promoting more specific predictions (specificity) without compromising correct ones (correctness) remains a non-trivial and understudied challenge. In this work, we investigate how to steer reasoning LMMs toward predictions that are both correct and specific. We propose a novel specificity-aware reinforcement learning framework, SpeciaRL, to fine-tune reasoning LMMs on fine-grained image classification under the open-world setting. SpeciaRL introduces a dynamic, verifier-based reward signal anchored to the best predictions within online rollouts, promoting specificity while respecting the model's capabilities to prevent incorrect predictions. Our out-of-domain experiments show that SpeciaRL delivers the best trade-off between correctness and specificity across extensive fine-grained benchmarks, surpassing existing methods and advancing open-world fine-grained image classification. Code and model are publicly available at https://github.com/s-angheben/SpeciaRL.

Специфичное обучение с подкреплением для детальной классификации в открытом мире

Specificity-aware reinforcement learning for fine-grained open-world classification

Аннотация

Support