ChatPaper.aiChatPaper

R-4B: Stimuleren van Algemene Auto-Denkvaardigheden in MLLMs via Bi-Mode Uitgloeien en Versterkend Leren

R-4B: Incentivizing General-Purpose Auto-Thinking Capability in MLLMs via Bi-Mode Annealing and Reinforce Learning

August 28, 2025
Auteurs: Jie Jiang, Qi Yang, Bolin Ni, Shiming Xiang, Han Hu, Houwen Peng
cs.AI

Samenvatting

Multimodale Large Language Models (MLLMs) uitgerust met stap-voor-stap denkvaardigheden hebben opmerkelijke prestaties getoond bij complexe redeneerproblemen. Dit denkproces is echter overbodig voor eenvoudige problemen die zonder complex redeneren opgelost kunnen worden. Om deze inefficiëntie aan te pakken, stellen we R-4B voor, een auto-denkende MLLM, die adaptief kan beslissen wanneer er gedacht moet worden op basis van de complexiteit van het probleem. De centrale gedachte achter R-4B is om het model zowel denk- als niet-denkvaardigheden te geven door middel van bi-mode annealing, en Bi-mode Policy Optimization (BPO) toe te passen om de nauwkeurigheid van het model te verbeteren in het bepalen of het denkproces geactiveerd moet worden. Specifiek trainen we eerst het model op een zorgvuldig samengestelde dataset die verschillende onderwerpen beslaat en zowel voorbeelden uit de denk- als niet-denkmodus bevat. Vervolgens ondergaat het een tweede trainingsfase onder een verbeterd GRPO-framework, waarbij het beleidsmodel gedwongen wordt om voor elke invoervraag reacties uit beide modi te genereren. Experimentele resultaten tonen aan dat R-4B state-of-the-art prestaties behaalt op 25 uitdagende benchmarks. Het overtreft Qwen2.5-VL-7B in de meeste taken en bereikt prestaties die vergelijkbaar zijn met grotere modellen zoals Kimi-VL-A3B-Thinking-2506 (16B) op redeneerintensieve benchmarks, tegen lagere rekenkosten.
English
Multimodal Large Language Models (MLLMs) equipped with step-by-step thinking capabilities have demonstrated remarkable performance on complex reasoning problems. However, this thinking process is redundant for simple problems solvable without complex reasoning. To address this inefficiency, we propose R-4B, an auto-thinking MLLM, which can adaptively decide when to think based on problem complexity. The central idea of R-4B is to empower the model with both thinking and non-thinking capabilities using bi-mode annealing, and apply Bi-mode Policy Optimization~(BPO) to improve the model's accuracy in determining whether to activate the thinking process. Specifically, we first train the model on a carefully curated dataset spanning various topics, which contains samples from both thinking and non-thinking modes. Then it undergoes a second phase of training under an improved GRPO framework, where the policy model is forced to generate responses from both modes for each input query. Experimental results show that R-4B achieves state-of-the-art performance across 25 challenging benchmarks. It outperforms Qwen2.5-VL-7B in most tasks and achieves performance comparable to larger models such as Kimi-VL-A3B-Thinking-2506 (16B) on reasoning-intensive benchmarks with lower computational cost.
PDF1092September 1, 2025