ChatPaper.aiChatPaper

CLS-RL: Классификация изображений с использованием обучения с подкреплением на основе правил

CLS-RL: Image Classification with Rule-Based Reinforcement Learning

March 20, 2025
Авторы: Ming Li, Shitian Zhao, Jike Zhong, Yuxiang Lai, Kaipeng Zhang
cs.AI

Аннотация

Классификация является ключевой задачей в машинном обучении. Недавние исследования показали, что, хотя мультимодальные большие языковые модели (MLLMs) изначально плохо справляются с классификацией изображений, их тонкая настройка с достаточным объемом данных может значительно улучшить их производительность, делая их сопоставимыми с современными моделями классификации (SOTA). Однако получение крупномасштабных размеченных данных является дорогостоящим. В данной работе мы исследуем тонкую настройку MLLM для классификации в условиях малого количества данных. Мы обнаружили, что Supervised Fine-Tuning (SFT) может вызывать серьезные проблемы переобучения и даже ухудшать производительность по сравнению с подходом zero-shot. Для решения этой задачи, вдохновленные недавними успехами в обучении с подкреплением на основе правил, мы предлагаем метод CLS-RL, который использует проверяемые сигналы в качестве награды для тонкой настройки MLLM. Мы выяснили, что CLS-RL превосходит SFT на большинстве наборов данных и демонстрирует значительно более высокую среднюю точность как в базовых, так и в условиях обучения с малым количеством данных. Более того, мы наблюдали феномен "бесплатного улучшения" для CLS-RL: когда модели настраиваются на определенном наборе данных, их производительность на других, отличных наборах данных также может улучшаться по сравнению с моделями zero-shot, даже если эти наборы данных различаются по распределению и названиям классов. Это свидетельствует о том, что методы на основе обучения с подкреплением эффективно обучают модели основам классификации. Наконец, вдохновленные недавними работами в области "мышления во время вывода", мы пересматриваем процесс "мышления" во время тонкой настройки, критический аспект методов на основе обучения с подкреплением, в контексте визуальной классификации. Мы задаемся вопросом, требуют ли такие задачи обширного процесса мышления во время настройки, предполагая, что это может фактически ухудшить производительность. На основе этой предпосылки мы представляем метод No-Thinking-CLS-RL, который минимизирует процессы мышления во время обучения, устанавливая награду за равную точность. Наши результаты показывают, что метод No-Thinking-CLS-RL, затрачивая значительно меньше времени на настройку, достигает превосходной производительности в рамках домена и обобщающей способности по сравнению с CLS-RL.
English
Classification is a core task in machine learning. Recent research has shown that although Multimodal Large Language Models (MLLMs) are initially poor at image classification, fine-tuning them with an adequate amount of data can significantly enhance their performance, making them comparable to SOTA classification models. However, acquiring large-scale labeled data is expensive. In this paper, we explore few-shot MLLM classification fine-tuning. We found that SFT can cause severe overfitting issues and may even degrade performance over the zero-shot approach. To address this challenge, inspired by the recent successes in rule-based reinforcement learning, we propose CLS-RL, which uses verifiable signals as reward to fine-tune MLLMs. We discovered that CLS-RL outperforms SFT in most datasets and has a much higher average accuracy on both base-to-new and few-shot learning setting. Moreover, we observed a free-lunch phenomenon for CLS-RL; when models are fine-tuned on a particular dataset, their performance on other distinct datasets may also improve over zero-shot models, even if those datasets differ in distribution and class names. This suggests that RL-based methods effectively teach models the fundamentals of classification. Lastly, inspired by recent works in inference time thinking, we re-examine the `thinking process' during fine-tuning, a critical aspect of RL-based methods, in the context of visual classification. We question whether such tasks require extensive thinking process during fine-tuning, proposing that this may actually detract from performance. Based on this premise, we introduce the No-Thinking-CLS-RL method, which minimizes thinking processes during training by setting an equality accuracy reward. Our findings indicate that, with much less fine-tuning time, No-Thinking-CLS-RL method achieves superior in-domain performance and generalization capabilities than CLS-RL.

Summary

AI-Generated Summary

PDF92March 21, 2025