El ajuste fino mediante refuerzo potencia la capacidad de razonamiento de los modelos de lenguaje multimodal de gran escala.
Reinforcement Fine-Tuning Powers Reasoning Capability of Multimodal Large Language Models
May 24, 2025
Autores: Haoyuan Sun, Jiaqi Wu, Bo Xia, Yifu Luo, Yifei Zhao, Kai Qin, Xufei Lv, Tiantian Zhang, Yongzhe Chang, Xueqian Wang
cs.AI
Resumen
En el año 2025, en un momento crucial en la búsqueda de la Inteligencia General Artificial (AGI), el ajuste fino por refuerzo (RFT, por sus siglas en inglés) ha demostrado un potencial significativo para mejorar la capacidad de razonamiento de los modelos de lenguaje de gran escala (LLMs) y ha llevado al desarrollo de modelos de IA de vanguardia como OpenAI-o1 y DeepSeek-R1. Además, la aplicación eficiente de RFT para mejorar la capacidad de razonamiento de los modelos de lenguaje multimodal de gran escala (MLLMs) ha captado una atención generalizada en la comunidad. En este documento de posición, argumentamos que el ajuste fino por refuerzo potencia la capacidad de razonamiento de los modelos de lenguaje multimodal de gran escala. Para comenzar, proporcionamos una introducción detallada a los conocimientos fundamentales que los investigadores interesados en este campo deberían conocer. Además, resumimos meticulosamente las mejoras de RFT en la potenciación de la capacidad de razonamiento de los MLLMs en cinco puntos clave: modalidades diversas, tareas y dominios variados, mejores algoritmos de entrenamiento, abundantes benchmarks y marcos de ingeniería en auge. Finalmente, proponemos cinco direcciones prometedoras para futuras investigaciones que la comunidad podría considerar. Esperamos que este documento de posición brinde valiosas perspectivas a la comunidad en esta etapa crucial del avance hacia la AGI. Un resumen de los trabajos realizados sobre RFT para MLLMs está disponible en https://github.com/Sun-Haoyuan23/Awesome-RL-based-Reasoning-MLLMs.
English
Standing in 2025, at a critical juncture in the pursuit of Artificial General
Intelligence (AGI), reinforcement fine-tuning (RFT) has demonstrated
significant potential in enhancing the reasoning capability of large language
models (LLMs) and has led to the development of cutting-edge AI models such as
OpenAI-o1 and DeepSeek-R1. Moreover, the efficient application of RFT to
enhance the reasoning capability of multimodal large language models (MLLMs)
has attracted widespread attention from the community. In this position paper,
we argue that reinforcement fine-tuning powers the reasoning capability of
multimodal large language models. To begin with, we provide a detailed
introduction to the fundamental background knowledge that researchers
interested in this field should be familiar with. Furthermore, we meticulously
summarize the improvements of RFT in powering reasoning capability of MLLMs
into five key points: diverse modalities, diverse tasks and domains, better
training algorithms, abundant benchmarks and thriving engineering frameworks.
Finally, we propose five promising directions for future research that the
community might consider. We hope that this position paper will provide
valuable insights to the community at this pivotal stage in the advancement
toward AGI. Summary of works done on RFT for MLLMs is available at
https://github.com/Sun-Haoyuan23/Awesome-RL-based-Reasoning-MLLMs.