CLS-RL: Classificazione di Immagini con Apprendimento per Rinforzo Basato su Regole
CLS-RL: Image Classification with Rule-Based Reinforcement Learning
March 20, 2025
Autori: Ming Li, Shitian Zhao, Jike Zhong, Yuxiang Lai, Kaipeng Zhang
cs.AI
Abstract
La classificazione è un compito fondamentale nel machine learning. Ricerche recenti hanno dimostrato che, sebbene i Modelli Linguistici Multimodali di Grande Scala (MLLM) siano inizialmente scarsi nella classificazione di immagini, il fine-tuning con una quantità adeguata di dati può migliorare significativamente le loro prestazioni, rendendoli comparabili ai modelli di classificazione all'avanguardia (SOTA). Tuttavia, acquisire dati etichettati su larga scala è costoso. In questo articolo, esploriamo il fine-tuning per la classificazione con pochi esempi (few-shot) negli MLLM. Abbiamo scoperto che il Supervised Fine-Tuning (SFT) può causare gravi problemi di overfitting e potrebbe persino peggiorare le prestazioni rispetto all'approccio zero-shot. Per affrontare questa sfida, ispirati dai recenti successi nel reinforcement learning basato su regole, proponiamo CLS-RL, che utilizza segnali verificabili come ricompensa per il fine-tuning degli MLLM. Abbiamo scoperto che CLS-RL supera il SFT nella maggior parte dei dataset e ha una precisione media molto più elevata sia nelle impostazioni di apprendimento base-to-new che few-shot. Inoltre, abbiamo osservato un fenomeno di "free-lunch" per CLS-RL; quando i modelli vengono sottoposti a fine-tuning su un particolare dataset, le loro prestazioni su altri dataset distinti possono migliorare rispetto ai modelli zero-shot, anche se tali dataset differiscono nella distribuzione e nei nomi delle classi. Ciò suggerisce che i metodi basati su RL insegnano efficacemente ai modelli i fondamenti della classificazione. Infine, ispirati da recenti lavori sul pensiero durante l'inferenza, riesaminiamo il "processo di pensiero" durante il fine-tuning, un aspetto critico dei metodi basati su RL, nel contesto della classificazione visiva. Ci chiediamo se tali compiti richiedano un ampio processo di pensiero durante il fine-tuning, proponendo che ciò potrebbe effettivamente compromettere le prestazioni. Sulla base di questa premessa, introduciamo il metodo No-Thinking-CLS-RL, che minimizza i processi di pensiero durante l'addestramento impostando una ricompensa di accuratezza uguale. I nostri risultati indicano che, con un tempo di fine-tuning molto inferiore, il metodo No-Thinking-CLS-RL raggiunge prestazioni superiori nel dominio e capacità di generalizzazione rispetto a CLS-RL.
English
Classification is a core task in machine learning. Recent research has shown
that although Multimodal Large Language Models (MLLMs) are initially poor at
image classification, fine-tuning them with an adequate amount of data can
significantly enhance their performance, making them comparable to SOTA
classification models. However, acquiring large-scale labeled data is
expensive. In this paper, we explore few-shot MLLM classification fine-tuning.
We found that SFT can cause severe overfitting issues and may even degrade
performance over the zero-shot approach. To address this challenge, inspired by
the recent successes in rule-based reinforcement learning, we propose CLS-RL,
which uses verifiable signals as reward to fine-tune MLLMs. We discovered that
CLS-RL outperforms SFT in most datasets and has a much higher average accuracy
on both base-to-new and few-shot learning setting. Moreover, we observed a
free-lunch phenomenon for CLS-RL; when models are fine-tuned on a particular
dataset, their performance on other distinct datasets may also improve over
zero-shot models, even if those datasets differ in distribution and class
names. This suggests that RL-based methods effectively teach models the
fundamentals of classification. Lastly, inspired by recent works in inference
time thinking, we re-examine the `thinking process' during fine-tuning, a
critical aspect of RL-based methods, in the context of visual classification.
We question whether such tasks require extensive thinking process during
fine-tuning, proposing that this may actually detract from performance. Based
on this premise, we introduce the No-Thinking-CLS-RL method, which minimizes
thinking processes during training by setting an equality accuracy reward. Our
findings indicate that, with much less fine-tuning time, No-Thinking-CLS-RL
method achieves superior in-domain performance and generalization capabilities
than CLS-RL.