VL-Rethinker: Förderung der Selbstreflexion von Vision-Sprache-Modellen durch Reinforcement Learning
VL-Rethinker: Incentivizing Self-Reflection of Vision-Language Models with Reinforcement Learning
April 10, 2025
Autoren: Haozhe Wang, Chao Qu, Zuming Huang, Wei Chu, Fangzhen Lin, Wenhu Chen
cs.AI
Zusammenfassung
Kürzlich haben langsam denkende Systeme wie GPT-o1 und DeepSeek-R1 großes Potenzial bei der Lösung anspruchsvoller Probleme durch explizite Reflexion gezeigt. Sie übertreffen die besten schnell denkenden Modelle, wie GPT-4o, deutlich in verschiedenen Mathematik- und Wissenschaftsbenchmarks. Ihre multimodalen Fähigkeiten zur logischen Schlussfolgerung bleiben jedoch auf dem Niveau von schnell denkenden Modellen. Beispielsweise ist die Leistung von GPT-o1 in Benchmarks wie MathVista, MathVerse und MathVision ähnlich wie bei schnell denkenden Modellen. In diesem Artikel streben wir an, die langsam denkenden Fähigkeiten von Vision-Sprache-Modellen durch Verstärkungslernen (ohne auf Destillation zurückzugreifen) zu verbessern, um den Stand der Technik voranzutreiben. Zunächst passen wir den GRPO-Algorithmus mit einer neuartigen Technik namens Selective Sample Replay (SSR) an, um das Problem der verschwindenden Vorteile zu lösen. Während dieser Ansatz eine starke Leistung erzielt, zeigen die daraus resultierenden RL-trainierten Modelle begrenzte Selbstreflexion oder Selbstüberprüfung. Um das langsame Denken weiter zu fördern, führen wir Forced Rethinking ein, das am Ende der anfänglichen Rollouts im RL-Training einen textuellen Nachdenk-Trigger hinzufügt und damit einen Schritt zur Selbstreflexion explizit erzwingt. Durch die Kombination dieser beiden Techniken erreicht unser Modell, VL-Rethinker, Spitzenwerte in MathVista, MathVerse und MathVision mit 80,3 %, 61,8 % bzw. 43,9 %. VL-Rethinker erzielt auch den Open-Source-Standard der Technik in multidisziplinären Benchmarks wie MMMU-Pro, EMMA und MEGA-Bench und verringert so die Lücke zu GPT-o1.
English
Recently, slow-thinking systems like GPT-o1 and DeepSeek-R1 have demonstrated
great potential in solving challenging problems through explicit reflection.
They significantly outperform the best fast-thinking models, such as GPT-4o, on
various math and science benchmarks. However, their multimodal reasoning
capabilities remain on par with fast-thinking models. For instance, GPT-o1's
performance on benchmarks like MathVista, MathVerse, and MathVision is similar
to fast-thinking models. In this paper, we aim to enhance the slow-thinking
capabilities of vision-language models using reinforcement learning (without
relying on distillation) to advance the state of the art. First, we adapt the
GRPO algorithm with a novel technique called Selective Sample Replay (SSR) to
address the vanishing advantages problem. While this approach yields strong
performance, the resulting RL-trained models exhibit limited self-reflection or
self-verification. To further encourage slow-thinking, we introduce Forced
Rethinking, which appends a textual rethinking trigger to the end of initial
rollouts in RL training, explicitly enforcing a self-reflection reasoning step.
By combining these two techniques, our model, VL-Rethinker, advances
state-of-the-art scores on MathVista, MathVerse, and MathVision to achieve
80.3%, 61.8%, and 43.9% respectively. VL-Rethinker also achieves open-source
SoTA on multi-disciplinary benchmarks such as MMMU-Pro, EMMA, and MEGA-Bench,
narrowing the gap with GPT-o1.Summary
AI-Generated Summary