CLS-RL: Clasificación de Imágenes con Aprendizaje por Refuerzo Basado en Reglas
CLS-RL: Image Classification with Rule-Based Reinforcement Learning
March 20, 2025
Autores: Ming Li, Shitian Zhao, Jike Zhong, Yuxiang Lai, Kaipeng Zhang
cs.AI
Resumen
La clasificación es una tarea fundamental en el aprendizaje automático. Investigaciones recientes han demostrado que, aunque los Modelos de Lenguaje Multimodales de Gran Escala (MLLMs) inicialmente tienen un rendimiento deficiente en la clasificación de imágenes, el ajuste fino con una cantidad adecuada de datos puede mejorar significativamente su desempeño, haciéndolos comparables a los modelos de clasificación de última generación (SOTA). Sin embargo, adquirir grandes cantidades de datos etiquetados es costoso. En este artículo, exploramos el ajuste fino de clasificación en MLLMs con pocos ejemplos. Descubrimos que el ajuste fino supervisado (SFT) puede causar graves problemas de sobreajuste e incluso degradar el rendimiento en comparación con el enfoque de cero ejemplos. Para abordar este desafío, inspirados por los recientes éxitos en el aprendizaje por refuerzo basado en reglas, proponemos CLS-RL, que utiliza señales verificables como recompensa para ajustar los MLLMs. Observamos que CLS-RL supera a SFT en la mayoría de los conjuntos de datos y tiene una precisión promedio mucho mayor tanto en entornos de aprendizaje de base a nuevo como en pocos ejemplos. Además, identificamos un fenómeno de "beneficio gratuito" en CLS-RL; cuando los modelos se ajustan en un conjunto de datos específico, su rendimiento en otros conjuntos de datos distintos también puede mejorar sobre los modelos de cero ejemplos, incluso si esos conjuntos difieren en distribución y nombres de clases. Esto sugiere que los métodos basados en aprendizaje por refuerzo enseñan efectivamente los fundamentos de la clasificación. Por último, inspirados por trabajos recientes en el pensamiento durante la inferencia, reexaminamos el "proceso de pensamiento" durante el ajuste fino, un aspecto crítico de los métodos basados en aprendizaje por refuerzo, en el contexto de la clasificación visual. Cuestionamos si tales tareas requieren un extenso proceso de pensamiento durante el ajuste fino, proponiendo que esto podría perjudicar el rendimiento. Basados en esta premisa, introducimos el método No-Thinking-CLS-RL, que minimiza los procesos de pensamiento durante el entrenamiento al establecer una recompensa de precisión igualitaria. Nuestros hallazgos indican que, con mucho menos tiempo de ajuste fino, el método No-Thinking-CLS-RL logra un rendimiento superior en el dominio y capacidades de generalización en comparación con CLS-RL.
English
Classification is a core task in machine learning. Recent research has shown
that although Multimodal Large Language Models (MLLMs) are initially poor at
image classification, fine-tuning them with an adequate amount of data can
significantly enhance their performance, making them comparable to SOTA
classification models. However, acquiring large-scale labeled data is
expensive. In this paper, we explore few-shot MLLM classification fine-tuning.
We found that SFT can cause severe overfitting issues and may even degrade
performance over the zero-shot approach. To address this challenge, inspired by
the recent successes in rule-based reinforcement learning, we propose CLS-RL,
which uses verifiable signals as reward to fine-tune MLLMs. We discovered that
CLS-RL outperforms SFT in most datasets and has a much higher average accuracy
on both base-to-new and few-shot learning setting. Moreover, we observed a
free-lunch phenomenon for CLS-RL; when models are fine-tuned on a particular
dataset, their performance on other distinct datasets may also improve over
zero-shot models, even if those datasets differ in distribution and class
names. This suggests that RL-based methods effectively teach models the
fundamentals of classification. Lastly, inspired by recent works in inference
time thinking, we re-examine the `thinking process' during fine-tuning, a
critical aspect of RL-based methods, in the context of visual classification.
We question whether such tasks require extensive thinking process during
fine-tuning, proposing that this may actually detract from performance. Based
on this premise, we introduce the No-Thinking-CLS-RL method, which minimizes
thinking processes during training by setting an equality accuracy reward. Our
findings indicate that, with much less fine-tuning time, No-Thinking-CLS-RL
method achieves superior in-domain performance and generalization capabilities
than CLS-RL.Summary
AI-Generated Summary