CLS-RL: Clasificación de Imágenes con Aprendizaje por Refuerzo Basado en Reglas

Resumen

La clasificación es una tarea fundamental en el aprendizaje automático. Investigaciones recientes han demostrado que, aunque los Modelos de Lenguaje Multimodales de Gran Escala (MLLMs) inicialmente tienen un rendimiento deficiente en la clasificación de imágenes, el ajuste fino con una cantidad adecuada de datos puede mejorar significativamente su desempeño, haciéndolos comparables a los modelos de clasificación de última generación (SOTA). Sin embargo, adquirir grandes cantidades de datos etiquetados es costoso. En este artículo, exploramos el ajuste fino de clasificación en MLLMs con pocos ejemplos. Descubrimos que el ajuste fino supervisado (SFT) puede causar graves problemas de sobreajuste e incluso degradar el rendimiento en comparación con el enfoque de cero ejemplos. Para abordar este desafío, inspirados por los recientes éxitos en el aprendizaje por refuerzo basado en reglas, proponemos CLS-RL, que utiliza señales verificables como recompensa para ajustar los MLLMs. Observamos que CLS-RL supera a SFT en la mayoría de los conjuntos de datos y tiene una precisión promedio mucho mayor tanto en entornos de aprendizaje de base a nuevo como en pocos ejemplos. Además, identificamos un fenómeno de "beneficio gratuito" en CLS-RL; cuando los modelos se ajustan en un conjunto de datos específico, su rendimiento en otros conjuntos de datos distintos también puede mejorar sobre los modelos de cero ejemplos, incluso si esos conjuntos difieren en distribución y nombres de clases. Esto sugiere que los métodos basados en aprendizaje por refuerzo enseñan efectivamente los fundamentos de la clasificación. Por último, inspirados por trabajos recientes en el pensamiento durante la inferencia, reexaminamos el "proceso de pensamiento" durante el ajuste fino, un aspecto crítico de los métodos basados en aprendizaje por refuerzo, en el contexto de la clasificación visual. Cuestionamos si tales tareas requieren un extenso proceso de pensamiento durante el ajuste fino, proponiendo que esto podría perjudicar el rendimiento. Basados en esta premisa, introducimos el método No-Thinking-CLS-RL, que minimiza los procesos de pensamiento durante el entrenamiento al establecer una recompensa de precisión igualitaria. Nuestros hallazgos indican que, con mucho menos tiempo de ajuste fino, el método No-Thinking-CLS-RL logra un rendimiento superior en el dominio y capacidades de generalización en comparación con CLS-RL.

English

Classification is a core task in machine learning. Recent research has shown that although Multimodal Large Language Models (MLLMs) are initially poor at image classification, fine-tuning them with an adequate amount of data can significantly enhance their performance, making them comparable to SOTA classification models. However, acquiring large-scale labeled data is expensive. In this paper, we explore few-shot MLLM classification fine-tuning. We found that SFT can cause severe overfitting issues and may even degrade performance over the zero-shot approach. To address this challenge, inspired by the recent successes in rule-based reinforcement learning, we propose CLS-RL, which uses verifiable signals as reward to fine-tune MLLMs. We discovered that CLS-RL outperforms SFT in most datasets and has a much higher average accuracy on both base-to-new and few-shot learning setting. Moreover, we observed a free-lunch phenomenon for CLS-RL; when models are fine-tuned on a particular dataset, their performance on other distinct datasets may also improve over zero-shot models, even if those datasets differ in distribution and class names. This suggests that RL-based methods effectively teach models the fundamentals of classification. Lastly, inspired by recent works in inference time thinking, we re-examine the `thinking process' during fine-tuning, a critical aspect of RL-based methods, in the context of visual classification. We question whether such tasks require extensive thinking process during fine-tuning, proposing that this may actually detract from performance. Based on this premise, we introduce the No-Thinking-CLS-RL method, which minimizes thinking processes during training by setting an equality accuracy reward. Our findings indicate that, with much less fine-tuning time, No-Thinking-CLS-RL method achieves superior in-domain performance and generalization capabilities than CLS-RL.

CLS-RL: Clasificación de Imágenes con Aprendizaje por Refuerzo Basado en Reglas

CLS-RL: Image Classification with Rule-Based Reinforcement Learning

Resumen

Support