ChatPaper.aiChatPaper

CLS-RL: ルールベース強化学習を用いた画像分類

CLS-RL: Image Classification with Rule-Based Reinforcement Learning

March 20, 2025
著者: Ming Li, Shitian Zhao, Jike Zhong, Yuxiang Lai, Kaipeng Zhang
cs.AI

要旨

分類は機械学習における中核的なタスクである。最近の研究では、マルチモーダル大規模言語モデル(MLLM)は当初画像分類において性能が低いものの、適切な量のデータでファインチューニングを行うことで性能が大幅に向上し、SOTA分類モデルに匹敵するレベルに達することが示されている。しかし、大規模なラベル付きデータを取得するのはコストがかかる。本論文では、Few-shot MLLM分類のファインチューニングを探求する。我々は、SFTが深刻な過学習問題を引き起こし、ゼロショットアプローチよりも性能が低下する可能性があることを発見した。この課題に対処するため、ルールベースの強化学習の最近の成功に着想を得て、検証可能な信号を報酬として使用してMLLMをファインチューニングするCLS-RLを提案する。我々は、CLS-RLがほとんどのデータセットでSFTを上回り、ベースから新規、およびFew-shot学習設定の両方で平均精度が大幅に高いことを発見した。さらに、CLS-RLにおいてフリーランチ現象を観察した。特定のデータセットでモデルをファインチューニングすると、分布やクラス名が異なる他のデータセットにおいても、ゼロショットモデルよりも性能が向上する場合がある。これは、RLベースの手法がモデルに分類の基礎を効果的に教えていることを示唆している。最後に、推論時の思考に関する最近の研究に着想を得て、視覚分類の文脈でRLベースの手法の重要な側面であるファインチューニング中の「思考プロセス」を再検討する。我々は、そのようなタスクがファインチューニング中に広範な思考プロセスを必要とするかどうかを疑問視し、これが実際に性能を損なう可能性があることを提案する。この前提に基づき、平等な精度報酬を設定することでトレーニング中の思考プロセスを最小化するNo-Thinking-CLS-RL手法を導入する。我々の調査結果は、No-Thinking-CLS-RL手法が、はるかに少ないファインチューニング時間で、CLS-RLよりも優れたドメイン内性能と汎化能力を達成することを示している。
English
Classification is a core task in machine learning. Recent research has shown that although Multimodal Large Language Models (MLLMs) are initially poor at image classification, fine-tuning them with an adequate amount of data can significantly enhance their performance, making them comparable to SOTA classification models. However, acquiring large-scale labeled data is expensive. In this paper, we explore few-shot MLLM classification fine-tuning. We found that SFT can cause severe overfitting issues and may even degrade performance over the zero-shot approach. To address this challenge, inspired by the recent successes in rule-based reinforcement learning, we propose CLS-RL, which uses verifiable signals as reward to fine-tune MLLMs. We discovered that CLS-RL outperforms SFT in most datasets and has a much higher average accuracy on both base-to-new and few-shot learning setting. Moreover, we observed a free-lunch phenomenon for CLS-RL; when models are fine-tuned on a particular dataset, their performance on other distinct datasets may also improve over zero-shot models, even if those datasets differ in distribution and class names. This suggests that RL-based methods effectively teach models the fundamentals of classification. Lastly, inspired by recent works in inference time thinking, we re-examine the `thinking process' during fine-tuning, a critical aspect of RL-based methods, in the context of visual classification. We question whether such tasks require extensive thinking process during fine-tuning, proposing that this may actually detract from performance. Based on this premise, we introduce the No-Thinking-CLS-RL method, which minimizes thinking processes during training by setting an equality accuracy reward. Our findings indicate that, with much less fine-tuning time, No-Thinking-CLS-RL method achieves superior in-domain performance and generalization capabilities than CLS-RL.

Summary

AI-Generated Summary

PDF92March 21, 2025