ChatPaper.aiChatPaper

R-4B: Förderung allgemeiner automatischer Denkfähigkeiten in MLLMs durch Bi-Modus-Annealing und Verstärkungslernen

R-4B: Incentivizing General-Purpose Auto-Thinking Capability in MLLMs via Bi-Mode Annealing and Reinforce Learning

August 28, 2025
papers.authors: Jie Jiang, Qi Yang, Bolin Ni, Shiming Xiang, Han Hu, Houwen Peng
cs.AI

papers.abstract

Multimodale Large Language Models (MLLMs) mit schrittweisem Denkvermögen haben bemerkenswerte Leistungen bei komplexen Denkaufgaben gezeigt. Dieser Denkprozess ist jedoch für einfache Probleme, die ohne komplexe Denkprozesse lösbar sind, redundant. Um diese Ineffizienz zu beheben, schlagen wir R-4B vor, ein auto-denkendes MLLM, das adaptiv entscheiden kann, wann es denken soll, basierend auf der Problemkomplexität. Die zentrale Idee von R-4B besteht darin, das Modell sowohl mit Denk- als auch mit Nicht-Denk-Fähigkeiten auszustatten, indem bi-modales Annealing verwendet wird, und Bi-mode Policy Optimization (BPO) anzuwenden, um die Genauigkeit des Modells bei der Entscheidung, ob der Denkprozess aktiviert werden soll, zu verbessern. Konkret trainieren wir das Modell zunächst auf einem sorgfältig kuratierten Datensatz, der verschiedene Themen abdeckt und sowohl Proben aus dem Denk- als auch aus dem Nicht-Denk-Modus enthält. Anschließend durchläuft es eine zweite Trainingsphase unter einem verbesserten GRPO-Rahmen, bei dem das Policy-Modell gezwungen wird, für jede Eingabeantworten aus beiden Modi zu generieren. Experimentelle Ergebnisse zeigen, dass R-4B auf 25 anspruchsvollen Benchmarks state-of-the-art Leistungen erzielt. Es übertrifft Qwen2.5-VL-7B in den meisten Aufgaben und erreicht eine Leistung, die mit größeren Modellen wie Kimi-VL-A3B-Thinking-2506 (16B) auf Denk-intensiven Benchmarks vergleichbar ist, jedoch mit geringeren Rechenkosten.
English
Multimodal Large Language Models (MLLMs) equipped with step-by-step thinking capabilities have demonstrated remarkable performance on complex reasoning problems. However, this thinking process is redundant for simple problems solvable without complex reasoning. To address this inefficiency, we propose R-4B, an auto-thinking MLLM, which can adaptively decide when to think based on problem complexity. The central idea of R-4B is to empower the model with both thinking and non-thinking capabilities using bi-mode annealing, and apply Bi-mode Policy Optimization~(BPO) to improve the model's accuracy in determining whether to activate the thinking process. Specifically, we first train the model on a carefully curated dataset spanning various topics, which contains samples from both thinking and non-thinking modes. Then it undergoes a second phase of training under an improved GRPO framework, where the policy model is forced to generate responses from both modes for each input query. Experimental results show that R-4B achieves state-of-the-art performance across 25 challenging benchmarks. It outperforms Qwen2.5-VL-7B in most tasks and achieves performance comparable to larger models such as Kimi-VL-A3B-Thinking-2506 (16B) on reasoning-intensive benchmarks with lower computational cost.
PDF1022September 1, 2025