ChatPaper.aiChatPaper

Vision-R1: Förderung der Fähigkeit zum logischen Denken in multimodalen großen Sprachmodellen

Vision-R1: Incentivizing Reasoning Capability in Multimodal Large Language Models

March 9, 2025
Autoren: Wenxuan Huang, Bohan Jia, Zijie Zhai, Shaosheng Cao, Zheyu Ye, Fei Zhao, Yao Hu, Shaohui Lin
cs.AI

Zusammenfassung

DeepSeek-R1-Zero hat erfolgreich die Entstehung von Denkfähigkeiten in LLMs (Large Language Models) ausschließlich durch Reinforcement Learning (RL) demonstriert. Inspiriert von diesem Durchbruch untersuchen wir, wie RL genutzt werden kann, um die Denkfähigkeit von MLLMs (Multimodal Large Language Models) zu verbessern. Allerdings kämpft das direkte Training mit RL damit, komplexe Denkfähigkeiten wie Fragenstellen und Reflexion in MLLMs zu aktivieren, was auf das Fehlen von umfangreichen, hochwertigen multimodalen Denkdaten zurückzuführen ist. Um dieses Problem zu lösen, schlagen wir das Denkmodell MLLM, Vision-R1, vor, um die multimodale Denkfähigkeit zu verbessern. Konkret konstruieren wir zunächst einen hochwertigen multimodalen CoT-Datensatz (Chain-of-Thought) ohne menschliche Annotationen, indem wir ein bestehendes MLLM und DeepSeek-R1 durch Modalbündelung und Datenfilterung nutzen, um einen 200K multimodalen CoT-Datensatz, den Vision-R1-cold-Datensatz, zu erhalten. Dieser dient als Cold-Start-Initialisierungsdaten für Vision-R1. Um die Optimierungsherausforderungen, die durch Überdenken nach dem Cold Start verursacht werden, zu mildern, schlagen wir die Progressive Thinking Suppression Training (PTST)-Strategie vor und setzen Group Relative Policy Optimization (GRPO) mit der Hard-Formatting-Result-Belohnungsfunktion ein, um die Fähigkeit des Modells, korrekte und komplexe Denkprozesse auf einem 10K multimodalen Mathe-Datensatz zu lernen, schrittweise zu verfeinern. Umfassende Experimente zeigen, dass unser Modell eine durchschnittliche Verbesserung von ~6% über verschiedene multimodale Mathe-Denk-Benchmarks erreicht. Vision-R1-7B erzielt eine Genauigkeit von 73,5% auf dem weit verbreiteten MathVista-Benchmark, was nur 0,4% unter dem führenden Denkmodell, OpenAI O1, liegt. Die Datensätze und der Code werden unter folgendem Link veröffentlicht: https://github.com/Osilly/Vision-R1.
English
DeepSeek-R1-Zero has successfully demonstrated the emergence of reasoning capabilities in LLMs purely through Reinforcement Learning (RL). Inspired by this breakthrough, we explore how RL can be utilized to enhance the reasoning capability of MLLMs. However, direct training with RL struggles to activate complex reasoning capabilities such as questioning and reflection in MLLMs, due to the absence of substantial high-quality multimodal reasoning data. To address this issue, we propose the reasoning MLLM, Vision-R1, to improve multimodal reasoning capability. Specifically, we first construct a high-quality multimodal CoT dataset without human annotations by leveraging an existing MLLM and DeepSeek-R1 through modality bridging and data filtering to obtain a 200K multimodal CoT dataset, Vision-R1-cold dataset. It serves as cold-start initialization data for Vision-R1. To mitigate the optimization challenges caused by overthinking after cold start, we propose Progressive Thinking Suppression Training (PTST) strategy and employ Group Relative Policy Optimization (GRPO) with the hard formatting result reward function to gradually refine the model's ability to learn correct and complex reasoning processes on a 10K multimodal math dataset. Comprehensive experiments show our model achieves an average improvement of sim6% across various multimodal math reasoning benchmarks. Vision-R1-7B achieves a 73.5% accuracy on the widely used MathVista benchmark, which is only 0.4% lower than the leading reasoning model, OpenAI O1. The datasets and code will be released in: https://github.com/Osilly/Vision-R1 .

Summary

AI-Generated Summary

PDF292March 11, 2025