VL-Rethinker: Zelfreflectie van Vision-Language-modellen stimuleren met Reinforcement Learning
VL-Rethinker: Incentivizing Self-Reflection of Vision-Language Models with Reinforcement Learning
April 10, 2025
Auteurs: Haozhe Wang, Chao Qu, Zuming Huang, Wei Chu, Fangzhen Lin, Wenhu Chen
cs.AI
Samenvatting
Onlangs hebben langzaam denkende systemen zoals GPT-o1 en DeepSeek-R1 groot potentieel getoond bij het oplossen van uitdagende problemen door expliciete reflectie. Ze overtreffen de beste snel denkende modellen, zoals GPT-4o, aanzienlijk op verschillende wiskundige en wetenschappelijke benchmarks. Hun multimodale redeneervaardigheden blijven echter vergelijkbaar met die van snel denkende modellen. Zo is de prestaties van GPT-o1 op benchmarks zoals MathVista, MathVerse en MathVision vergelijkbaar met die van snel denkende modellen. In dit artikel streven we ernaar om de langzaam denkende capaciteiten van visie-taalmodellen te verbeteren door middel van reinforcement learning (zonder gebruik te maken van distillatie) om de stand van de techniek vooruit te helpen. Eerst passen we het GRPO-algoritme aan met een nieuwe techniek genaamd Selective Sample Replay (SSR) om het probleem van verdwijnende voordelen aan te pakken. Hoewel deze aanpak sterke prestaties oplevert, vertonen de resulterende RL-getrainde modellen beperkte zelfreflectie of zelfverificatie. Om langzaam denken verder aan te moedigen, introduceren we Forced Rethinking, waarbij een tekstuele herdenkingsprikkel wordt toegevoegd aan het einde van initiële rollouts in RL-training, waardoor expliciet een zelfreflectie-redeneerstap wordt afgedwongen. Door deze twee technieken te combineren, behaalt ons model, VL-Rethinker, state-of-the-art scores op MathVista, MathVerse en MathVision van respectievelijk 80,3%, 61,8% en 43,9%. VL-Rethinker behaalt ook open-source SoTA op multidisciplinaire benchmarks zoals MMMU-Pro, EMMA en MEGA-Bench, waardoor de kloof met GPT-o1 wordt verkleind.
English
Recently, slow-thinking systems like GPT-o1 and DeepSeek-R1 have demonstrated
great potential in solving challenging problems through explicit reflection.
They significantly outperform the best fast-thinking models, such as GPT-4o, on
various math and science benchmarks. However, their multimodal reasoning
capabilities remain on par with fast-thinking models. For instance, GPT-o1's
performance on benchmarks like MathVista, MathVerse, and MathVision is similar
to fast-thinking models. In this paper, we aim to enhance the slow-thinking
capabilities of vision-language models using reinforcement learning (without
relying on distillation) to advance the state of the art. First, we adapt the
GRPO algorithm with a novel technique called Selective Sample Replay (SSR) to
address the vanishing advantages problem. While this approach yields strong
performance, the resulting RL-trained models exhibit limited self-reflection or
self-verification. To further encourage slow-thinking, we introduce Forced
Rethinking, which appends a textual rethinking trigger to the end of initial
rollouts in RL training, explicitly enforcing a self-reflection reasoning step.
By combining these two techniques, our model, VL-Rethinker, advances
state-of-the-art scores on MathVista, MathVerse, and MathVision to achieve
80.3%, 61.8%, and 43.9% respectively. VL-Rethinker also achieves open-source
SoTA on multi-disciplinary benchmarks such as MMMU-Pro, EMMA, and MEGA-Bench,
narrowing the gap with GPT-o1.Summary
AI-Generated Summary