CLS-RL: Beeldclassificatie met Regelgebaseerd Reinforcement Learning
CLS-RL: Image Classification with Rule-Based Reinforcement Learning
March 20, 2025
Auteurs: Ming Li, Shitian Zhao, Jike Zhong, Yuxiang Lai, Kaipeng Zhang
cs.AI
Samenvatting
Classificatie is een kerntaak in machine learning. Recent onderzoek heeft aangetoond dat hoewel Multimodale Grote Taalmodellen (MLLMs) aanvankelijk slecht presteren in beeldclassificatie, het finetunen ervan met een voldoende hoeveelheid data hun prestaties aanzienlijk kan verbeteren, waardoor ze vergelijkbaar worden met state-of-the-art (SOTA) classificatiemodellen. Het verkrijgen van grootschalige gelabelde data is echter kostbaar. In dit artikel onderzoeken we few-shot MLLM classificatie finetunen. We ontdekten dat Supervised Fine-Tuning (SFT) ernstige overfittingproblemen kan veroorzaken en zelfs kan leiden tot een verslechtering van de prestaties in vergelijking met de zero-shot aanpak. Om deze uitdaging aan te pakken, geïnspireerd door recente successen in regelgebaseerd reinforcement learning, stellen we CLS-RL voor, dat verifieerbare signalen gebruikt als beloning om MLLMs te finetunen. We ontdekten dat CLS-RL in de meeste datasets beter presteert dan SFT en een veel hogere gemiddelde nauwkeurigheid heeft in zowel base-to-new als few-shot leeromgevingen. Bovendien observeerden we een free-lunch fenomeen voor CLS-RL; wanneer modellen worden gefinetuned op een specifieke dataset, kan hun prestaties op andere verschillende datasets ook verbeteren ten opzichte van zero-shot modellen, zelfs als die datasets verschillen in distributie en klassennamen. Dit suggereert dat RL-gebaseerde methoden modellen effectief de basisprincipes van classificatie aanleren. Ten slotte, geïnspireerd door recente werken in inference time thinking, heronderzoeken we het 'denkproces' tijdens het finetunen, een kritisch aspect van RL-gebaseerde methoden, in de context van visuele classificatie. We vragen ons af of dergelijke taken uitgebreide denkprocessen tijdens het finetunen vereisen, en stellen voor dat dit de prestaties mogelijk zelfs kan schaden. Op basis van deze premisse introduceren we de No-Thinking-CLS-RL methode, die denkprocessen tijdens de training minimaliseert door een gelijkheidsnauwkeurigheidsbeloning in te stellen. Onze bevindingen geven aan dat, met veel minder finetuningtijd, de No-Thinking-CLS-RL methode superieure in-domein prestaties en generalisatiecapaciteiten bereikt dan CLS-RL.
English
Classification is a core task in machine learning. Recent research has shown
that although Multimodal Large Language Models (MLLMs) are initially poor at
image classification, fine-tuning them with an adequate amount of data can
significantly enhance their performance, making them comparable to SOTA
classification models. However, acquiring large-scale labeled data is
expensive. In this paper, we explore few-shot MLLM classification fine-tuning.
We found that SFT can cause severe overfitting issues and may even degrade
performance over the zero-shot approach. To address this challenge, inspired by
the recent successes in rule-based reinforcement learning, we propose CLS-RL,
which uses verifiable signals as reward to fine-tune MLLMs. We discovered that
CLS-RL outperforms SFT in most datasets and has a much higher average accuracy
on both base-to-new and few-shot learning setting. Moreover, we observed a
free-lunch phenomenon for CLS-RL; when models are fine-tuned on a particular
dataset, their performance on other distinct datasets may also improve over
zero-shot models, even if those datasets differ in distribution and class
names. This suggests that RL-based methods effectively teach models the
fundamentals of classification. Lastly, inspired by recent works in inference
time thinking, we re-examine the `thinking process' during fine-tuning, a
critical aspect of RL-based methods, in the context of visual classification.
We question whether such tasks require extensive thinking process during
fine-tuning, proposing that this may actually detract from performance. Based
on this premise, we introduce the No-Thinking-CLS-RL method, which minimizes
thinking processes during training by setting an equality accuracy reward. Our
findings indicate that, with much less fine-tuning time, No-Thinking-CLS-RL
method achieves superior in-domain performance and generalization capabilities
than CLS-RL.Summary
AI-Generated Summary