Vision-R1: Förderung der Fähigkeit zum logischen Denken in multimodalen großen Sprachmodellen
Vision-R1: Incentivizing Reasoning Capability in Multimodal Large Language Models
March 9, 2025
Autoren: Wenxuan Huang, Bohan Jia, Zijie Zhai, Shaosheng Cao, Zheyu Ye, Fei Zhao, Yao Hu, Shaohui Lin
cs.AI
Zusammenfassung
DeepSeek-R1-Zero hat erfolgreich die Entstehung von Denkfähigkeiten in LLMs (Large Language Models) ausschließlich durch Reinforcement Learning (RL) demonstriert. Inspiriert von diesem Durchbruch untersuchen wir, wie RL genutzt werden kann, um die Denkfähigkeit von MLLMs (Multimodal Large Language Models) zu verbessern. Allerdings kämpft das direkte Training mit RL damit, komplexe Denkfähigkeiten wie Fragenstellen und Reflexion in MLLMs zu aktivieren, was auf das Fehlen von umfangreichen, hochwertigen multimodalen Denkdaten zurückzuführen ist. Um dieses Problem zu lösen, schlagen wir das Denkmodell MLLM, Vision-R1, vor, um die multimodale Denkfähigkeit zu verbessern. Konkret konstruieren wir zunächst einen hochwertigen multimodalen CoT-Datensatz (Chain-of-Thought) ohne menschliche Annotationen, indem wir ein bestehendes MLLM und DeepSeek-R1 durch Modalbündelung und Datenfilterung nutzen, um einen 200K multimodalen CoT-Datensatz, den Vision-R1-cold-Datensatz, zu erhalten. Dieser dient als Cold-Start-Initialisierungsdaten für Vision-R1. Um die Optimierungsherausforderungen, die durch Überdenken nach dem Cold Start verursacht werden, zu mildern, schlagen wir die Progressive Thinking Suppression Training (PTST)-Strategie vor und setzen Group Relative Policy Optimization (GRPO) mit der Hard-Formatting-Result-Belohnungsfunktion ein, um die Fähigkeit des Modells, korrekte und komplexe Denkprozesse auf einem 10K multimodalen Mathe-Datensatz zu lernen, schrittweise zu verfeinern. Umfassende Experimente zeigen, dass unser Modell eine durchschnittliche Verbesserung von ~6% über verschiedene multimodale Mathe-Denk-Benchmarks erreicht. Vision-R1-7B erzielt eine Genauigkeit von 73,5% auf dem weit verbreiteten MathVista-Benchmark, was nur 0,4% unter dem führenden Denkmodell, OpenAI O1, liegt. Die Datensätze und der Code werden unter folgendem Link veröffentlicht: https://github.com/Osilly/Vision-R1.
English
DeepSeek-R1-Zero has successfully demonstrated the emergence of reasoning
capabilities in LLMs purely through Reinforcement Learning (RL). Inspired by
this breakthrough, we explore how RL can be utilized to enhance the reasoning
capability of MLLMs. However, direct training with RL struggles to activate
complex reasoning capabilities such as questioning and reflection in MLLMs, due
to the absence of substantial high-quality multimodal reasoning data. To
address this issue, we propose the reasoning MLLM, Vision-R1, to improve
multimodal reasoning capability. Specifically, we first construct a
high-quality multimodal CoT dataset without human annotations by leveraging an
existing MLLM and DeepSeek-R1 through modality bridging and data filtering to
obtain a 200K multimodal CoT dataset, Vision-R1-cold dataset. It serves as
cold-start initialization data for Vision-R1. To mitigate the optimization
challenges caused by overthinking after cold start, we propose Progressive
Thinking Suppression Training (PTST) strategy and employ Group Relative Policy
Optimization (GRPO) with the hard formatting result reward function to
gradually refine the model's ability to learn correct and complex reasoning
processes on a 10K multimodal math dataset. Comprehensive experiments show our
model achieves an average improvement of sim6% across various multimodal
math reasoning benchmarks. Vision-R1-7B achieves a 73.5% accuracy on the widely
used MathVista benchmark, which is only 0.4% lower than the leading reasoning
model, OpenAI O1. The datasets and code will be released in:
https://github.com/Osilly/Vision-R1 .Summary
AI-Generated Summary