ChatPaper.aiChatPaper

VL-Rethinker: Zelfreflectie van Vision-Language-modellen stimuleren met Reinforcement Learning

VL-Rethinker: Incentivizing Self-Reflection of Vision-Language Models with Reinforcement Learning

April 10, 2025
Auteurs: Haozhe Wang, Chao Qu, Zuming Huang, Wei Chu, Fangzhen Lin, Wenhu Chen
cs.AI

Samenvatting

Onlangs hebben langzaam denkende systemen zoals GPT-o1 en DeepSeek-R1 groot potentieel getoond bij het oplossen van uitdagende problemen door expliciete reflectie. Ze overtreffen de beste snel denkende modellen, zoals GPT-4o, aanzienlijk op verschillende wiskundige en wetenschappelijke benchmarks. Hun multimodale redeneervaardigheden blijven echter vergelijkbaar met die van snel denkende modellen. Zo is de prestaties van GPT-o1 op benchmarks zoals MathVista, MathVerse en MathVision vergelijkbaar met die van snel denkende modellen. In dit artikel streven we ernaar om de langzaam denkende capaciteiten van visie-taalmodellen te verbeteren door middel van reinforcement learning (zonder gebruik te maken van distillatie) om de stand van de techniek vooruit te helpen. Eerst passen we het GRPO-algoritme aan met een nieuwe techniek genaamd Selective Sample Replay (SSR) om het probleem van verdwijnende voordelen aan te pakken. Hoewel deze aanpak sterke prestaties oplevert, vertonen de resulterende RL-getrainde modellen beperkte zelfreflectie of zelfverificatie. Om langzaam denken verder aan te moedigen, introduceren we Forced Rethinking, waarbij een tekstuele herdenkingsprikkel wordt toegevoegd aan het einde van initiële rollouts in RL-training, waardoor expliciet een zelfreflectie-redeneerstap wordt afgedwongen. Door deze twee technieken te combineren, behaalt ons model, VL-Rethinker, state-of-the-art scores op MathVista, MathVerse en MathVision van respectievelijk 80,3%, 61,8% en 43,9%. VL-Rethinker behaalt ook open-source SoTA op multidisciplinaire benchmarks zoals MMMU-Pro, EMMA en MEGA-Bench, waardoor de kloof met GPT-o1 wordt verkleind.
English
Recently, slow-thinking systems like GPT-o1 and DeepSeek-R1 have demonstrated great potential in solving challenging problems through explicit reflection. They significantly outperform the best fast-thinking models, such as GPT-4o, on various math and science benchmarks. However, their multimodal reasoning capabilities remain on par with fast-thinking models. For instance, GPT-o1's performance on benchmarks like MathVista, MathVerse, and MathVision is similar to fast-thinking models. In this paper, we aim to enhance the slow-thinking capabilities of vision-language models using reinforcement learning (without relying on distillation) to advance the state of the art. First, we adapt the GRPO algorithm with a novel technique called Selective Sample Replay (SSR) to address the vanishing advantages problem. While this approach yields strong performance, the resulting RL-trained models exhibit limited self-reflection or self-verification. To further encourage slow-thinking, we introduce Forced Rethinking, which appends a textual rethinking trigger to the end of initial rollouts in RL training, explicitly enforcing a self-reflection reasoning step. By combining these two techniques, our model, VL-Rethinker, advances state-of-the-art scores on MathVista, MathVerse, and MathVision to achieve 80.3%, 61.8%, and 43.9% respectively. VL-Rethinker also achieves open-source SoTA on multi-disciplinary benchmarks such as MMMU-Pro, EMMA, and MEGA-Bench, narrowing the gap with GPT-o1.

Summary

AI-Generated Summary

PDF422April 15, 2025