R-4B : Incitation des capacités de pensée automatique polyvalentes dans les MLLM via recuitage bi-modal et apprentissage par renforcement
R-4B: Incentivizing General-Purpose Auto-Thinking Capability in MLLMs via Bi-Mode Annealing and Reinforce Learning
August 28, 2025
papers.authors: Jie Jiang, Qi Yang, Bolin Ni, Shiming Xiang, Han Hu, Houwen Peng
cs.AI
papers.abstract
Les modèles de langage multimodaux (MLLMs) dotés de capacités de raisonnement étape par étape ont démontré des performances remarquables sur des problèmes de raisonnement complexes. Cependant, ce processus de réflexion est redondant pour des problèmes simples qui ne nécessitent pas de raisonnement complexe. Pour remédier à cette inefficacité, nous proposons R-4B, un MLLM à réflexion automatique, capable de décider de manière adaptative quand réfléchir en fonction de la complexité du problème. L'idée centrale de R-4B est de doter le modèle de capacités de réflexion et de non-réflexion grâce à un recuit bi-mode, et d'appliquer l'optimisation de politique bi-mode (BPO) pour améliorer la précision du modèle dans la décision d'activer ou non le processus de réflexion. Plus précisément, nous entraînons d'abord le modèle sur un ensemble de données soigneusement sélectionné couvrant divers sujets, contenant des échantillons des modes avec et sans réflexion. Ensuite, il subit une deuxième phase d'entraînement dans un cadre GRPO amélioré, où le modèle de politique est contraint de générer des réponses pour chaque requête d'entrée dans les deux modes. Les résultats expérimentaux montrent que R-4B atteint des performances de pointe sur 25 benchmarks exigeants. Il surpasse Qwen2.5-VL-7B dans la plupart des tâches et atteint des performances comparables à des modèles plus grands comme Kimi-VL-A3B-Thinking-2506 (16B) sur des benchmarks intensifs en raisonnement, avec un coût computationnel moindre.
English
Multimodal Large Language Models (MLLMs) equipped with step-by-step thinking
capabilities have demonstrated remarkable performance on complex reasoning
problems. However, this thinking process is redundant for simple problems
solvable without complex reasoning. To address this inefficiency, we propose
R-4B, an auto-thinking MLLM, which can adaptively decide when to think based on
problem complexity. The central idea of R-4B is to empower the model with both
thinking and non-thinking capabilities using bi-mode annealing, and apply
Bi-mode Policy Optimization~(BPO) to improve the model's accuracy in
determining whether to activate the thinking process. Specifically, we first
train the model on a carefully curated dataset spanning various topics, which
contains samples from both thinking and non-thinking modes. Then it undergoes a
second phase of training under an improved GRPO framework, where the policy
model is forced to generate responses from both modes for each input query.
Experimental results show that R-4B achieves state-of-the-art performance
across 25 challenging benchmarks. It outperforms Qwen2.5-VL-7B in most tasks
and achieves performance comparable to larger models such as
Kimi-VL-A3B-Thinking-2506 (16B) on reasoning-intensive benchmarks with lower
computational cost.