CLS-RL : Classification d'images par apprentissage par renforcement basé sur des règles
CLS-RL: Image Classification with Rule-Based Reinforcement Learning
March 20, 2025
Auteurs: Ming Li, Shitian Zhao, Jike Zhong, Yuxiang Lai, Kaipeng Zhang
cs.AI
Résumé
La classification est une tâche fondamentale en apprentissage automatique. Des recherches récentes ont montré que bien que les modèles de langage multimodaux de grande taille (MLLMs) soient initialement médiocres en classification d'images, leur fine-tuning avec une quantité adéquate de données peut considérablement améliorer leurs performances, les rendant comparables aux modèles de classification de pointe (SOTA). Cependant, l'acquisition de données annotées à grande échelle est coûteuse. Dans cet article, nous explorons le fine-tuning de classification MLLM en contexte few-shot. Nous avons constaté que le fine-tuning supervisé (SFT) peut entraîner des problèmes de sur-apprentissage sévères et même dégrader les performances par rapport à l'approche zero-shot. Pour relever ce défi, inspirés par les récents succès en apprentissage par renforcement basé sur des règles, nous proposons CLS-RL, qui utilise des signaux vérifiables comme récompense pour fine-tuner les MLLMs. Nous avons découvert que CLS-RL surpasse SFT sur la plupart des jeux de données et présente une précision moyenne bien plus élevée dans les contextes d'apprentissage base-to-new et few-shot. De plus, nous avons observé un phénomène de "free-lunch" pour CLS-RL ; lorsque les modèles sont fine-tunés sur un jeu de données particulier, leurs performances sur d'autres jeux de données distincts peuvent également s'améliorer par rapport aux modèles zero-shot, même si ces jeux de données diffèrent en termes de distribution et de noms de classes. Cela suggère que les méthodes basées sur le renforcement enseignent efficacement les fondamentaux de la classification aux modèles. Enfin, inspirés par les travaux récents sur le processus de réflexion au moment de l'inférence, nous réexaminons le "processus de réflexion" pendant le fine-tuning, un aspect critique des méthodes basées sur le renforcement, dans le contexte de la classification visuelle. Nous nous interrogeons sur la nécessité d'un processus de réflexion étendu pendant le fine-tuning pour de telles tâches, proposant que cela pourrait en fait nuire aux performances. Sur cette base, nous introduisons la méthode No-Thinking-CLS-RL, qui minimise les processus de réflexion pendant l'entraînement en définissant une récompense basée sur l'exactitude égale. Nos résultats indiquent qu'avec un temps de fine-tuning bien moindre, la méthode No-Thinking-CLS-RL atteint des performances supérieures en domaine et des capacités de généralisation par rapport à CLS-RL.
English
Classification is a core task in machine learning. Recent research has shown
that although Multimodal Large Language Models (MLLMs) are initially poor at
image classification, fine-tuning them with an adequate amount of data can
significantly enhance their performance, making them comparable to SOTA
classification models. However, acquiring large-scale labeled data is
expensive. In this paper, we explore few-shot MLLM classification fine-tuning.
We found that SFT can cause severe overfitting issues and may even degrade
performance over the zero-shot approach. To address this challenge, inspired by
the recent successes in rule-based reinforcement learning, we propose CLS-RL,
which uses verifiable signals as reward to fine-tune MLLMs. We discovered that
CLS-RL outperforms SFT in most datasets and has a much higher average accuracy
on both base-to-new and few-shot learning setting. Moreover, we observed a
free-lunch phenomenon for CLS-RL; when models are fine-tuned on a particular
dataset, their performance on other distinct datasets may also improve over
zero-shot models, even if those datasets differ in distribution and class
names. This suggests that RL-based methods effectively teach models the
fundamentals of classification. Lastly, inspired by recent works in inference
time thinking, we re-examine the `thinking process' during fine-tuning, a
critical aspect of RL-based methods, in the context of visual classification.
We question whether such tasks require extensive thinking process during
fine-tuning, proposing that this may actually detract from performance. Based
on this premise, we introduce the No-Thinking-CLS-RL method, which minimizes
thinking processes during training by setting an equality accuracy reward. Our
findings indicate that, with much less fine-tuning time, No-Thinking-CLS-RL
method achieves superior in-domain performance and generalization capabilities
than CLS-RL.Summary
AI-Generated Summary