CLS-RL: Classificação de Imagens com Aprendizado por Reforço Baseado em Regras
CLS-RL: Image Classification with Rule-Based Reinforcement Learning
March 20, 2025
Autores: Ming Li, Shitian Zhao, Jike Zhong, Yuxiang Lai, Kaipeng Zhang
cs.AI
Resumo
A classificação é uma tarefa fundamental no aprendizado de máquina. Pesquisas recentes mostraram que, embora os Modelos de Linguagem Multimodal de Grande Escala (MLLMs) inicialmente tenham desempenho ruim em classificação de imagens, o ajuste fino com uma quantidade adequada de dados pode melhorar significativamente seu desempenho, tornando-os comparáveis aos modelos de classificação state-of-the-art (SOTA). No entanto, a aquisição de dados em grande escala rotulados é custosa. Neste artigo, exploramos o ajuste fino de classificação em MLLMs com poucos exemplos. Descobrimos que o ajuste fino supervisionado (SFT) pode causar graves problemas de sobreajuste e até mesmo degradar o desempenho em relação à abordagem zero-shot. Para enfrentar esse desafio, inspirados pelos recentes sucessos no aprendizado por reforço baseado em regras, propomos o CLS-RL, que utiliza sinais verificáveis como recompensa para ajustar MLLMs. Descobrimos que o CLS-RL supera o SFT na maioria dos conjuntos de dados e apresenta uma precisão média muito maior tanto em cenários de aprendizado base-para-novo quanto de poucos exemplos. Além disso, observamos um fenômeno de "almoço grátis" para o CLS-RL; quando os modelos são ajustados em um conjunto de dados específico, seu desempenho em outros conjuntos de dados distintos também pode melhorar em relação aos modelos zero-shot, mesmo que esses conjuntos de dados difiram em distribuição e nomes de classes. Isso sugere que métodos baseados em aprendizado por reforço ensinam efetivamente os fundamentos da classificação aos modelos. Por fim, inspirados por trabalhos recentes sobre o processo de pensamento durante a inferência, reexaminamos o "processo de pensamento" durante o ajuste fino, um aspecto crítico dos métodos baseados em aprendizado por reforço, no contexto da classificação visual. Questionamos se tais tarefas exigem um extenso processo de pensamento durante o ajuste fino, propondo que isso pode, na verdade, prejudicar o desempenho. Com base nessa premissa, introduzimos o método No-Thinking-CLS-RL, que minimiza os processos de pensamento durante o treinamento ao definir uma recompensa de precisão igualitária. Nossos resultados indicam que, com um tempo de ajuste fino muito menor, o método No-Thinking-CLS-RL alcança desempenho superior no domínio e capacidades de generalização em relação ao CLS-RL.
English
Classification is a core task in machine learning. Recent research has shown
that although Multimodal Large Language Models (MLLMs) are initially poor at
image classification, fine-tuning them with an adequate amount of data can
significantly enhance their performance, making them comparable to SOTA
classification models. However, acquiring large-scale labeled data is
expensive. In this paper, we explore few-shot MLLM classification fine-tuning.
We found that SFT can cause severe overfitting issues and may even degrade
performance over the zero-shot approach. To address this challenge, inspired by
the recent successes in rule-based reinforcement learning, we propose CLS-RL,
which uses verifiable signals as reward to fine-tune MLLMs. We discovered that
CLS-RL outperforms SFT in most datasets and has a much higher average accuracy
on both base-to-new and few-shot learning setting. Moreover, we observed a
free-lunch phenomenon for CLS-RL; when models are fine-tuned on a particular
dataset, their performance on other distinct datasets may also improve over
zero-shot models, even if those datasets differ in distribution and class
names. This suggests that RL-based methods effectively teach models the
fundamentals of classification. Lastly, inspired by recent works in inference
time thinking, we re-examine the `thinking process' during fine-tuning, a
critical aspect of RL-based methods, in the context of visual classification.
We question whether such tasks require extensive thinking process during
fine-tuning, proposing that this may actually detract from performance. Based
on this premise, we introduce the No-Thinking-CLS-RL method, which minimizes
thinking processes during training by setting an equality accuracy reward. Our
findings indicate that, with much less fine-tuning time, No-Thinking-CLS-RL
method achieves superior in-domain performance and generalization capabilities
than CLS-RL.Summary
AI-Generated Summary