Reinforcement Fine-Tuning Vergroot de Redeneervaardigheid van Multimodale Grote Taalmodellen
Reinforcement Fine-Tuning Powers Reasoning Capability of Multimodal Large Language Models
May 24, 2025
Auteurs: Haoyuan Sun, Jiaqi Wu, Bo Xia, Yifu Luo, Yifei Zhao, Kai Qin, Xufei Lv, Tiantian Zhang, Yongzhe Chang, Xueqian Wang
cs.AI
Samenvatting
In 2025, op een cruciaal moment in de zoektocht naar Artificial General Intelligence (AGI), heeft reinforcement fine-tuning (RFT) aanzienlijk potentieel getoond in het verbeteren van de redeneervaardigheid van grote taalmodelen (LLMs) en heeft het geleid tot de ontwikkeling van geavanceerde AI-modellen zoals OpenAI-o1 en DeepSeek-R1. Bovendien heeft de efficiënte toepassing van RFT om de redeneervaardigheid van multimodale grote taalmodelen (MLLMs) te verbeteren, brede aandacht van de gemeenschap getrokken. In dit position paper beargumenteren we dat reinforcement fine-tuning de redeneervaardigheid van multimodale grote taalmodelen versterkt. Om te beginnen bieden we een gedetailleerde introductie van de fundamentele achtergrondkennis waar onderzoekers die in dit veld geïnteresseerd zijn, vertrouwd mee zouden moeten zijn. Verder vatten we zorgvuldig de verbeteringen van RFT in het versterken van de redeneervaardigheid van MLLMs samen in vijf belangrijke punten: diverse modaliteiten, diverse taken en domeinen, betere trainingsalgoritmen, overvloedige benchmarks en bloeiende technische frameworks. Tot slot stellen we vijf veelbelovende onderzoeksrichtingen voor die de gemeenschap zou kunnen overwegen. We hopen dat dit position paper waardevolle inzichten zal bieden aan de gemeenschap in dit cruciale stadium van de vooruitgang naar AGI. Een samenvatting van uitgevoerd werk over RFT voor MLLMs is beschikbaar op https://github.com/Sun-Haoyuan23/Awesome-RL-based-Reasoning-MLLMs.
English
Standing in 2025, at a critical juncture in the pursuit of Artificial General
Intelligence (AGI), reinforcement fine-tuning (RFT) has demonstrated
significant potential in enhancing the reasoning capability of large language
models (LLMs) and has led to the development of cutting-edge AI models such as
OpenAI-o1 and DeepSeek-R1. Moreover, the efficient application of RFT to
enhance the reasoning capability of multimodal large language models (MLLMs)
has attracted widespread attention from the community. In this position paper,
we argue that reinforcement fine-tuning powers the reasoning capability of
multimodal large language models. To begin with, we provide a detailed
introduction to the fundamental background knowledge that researchers
interested in this field should be familiar with. Furthermore, we meticulously
summarize the improvements of RFT in powering reasoning capability of MLLMs
into five key points: diverse modalities, diverse tasks and domains, better
training algorithms, abundant benchmarks and thriving engineering frameworks.
Finally, we propose five promising directions for future research that the
community might consider. We hope that this position paper will provide
valuable insights to the community at this pivotal stage in the advancement
toward AGI. Summary of works done on RFT for MLLMs is available at
https://github.com/Sun-Haoyuan23/Awesome-RL-based-Reasoning-MLLMs.