R-4B: Incentivizando la capacidad de pensamiento automático de propósito general en MLLMs mediante recocido bimodal y aprendizaje por refuerzo
R-4B: Incentivizing General-Purpose Auto-Thinking Capability in MLLMs via Bi-Mode Annealing and Reinforce Learning
August 28, 2025
Autores: Jie Jiang, Qi Yang, Bolin Ni, Shiming Xiang, Han Hu, Houwen Peng
cs.AI
Resumen
Los Modelos de Lenguaje Multimodales de Gran Escala (MLLMs) equipados con capacidades de pensamiento paso a paso han demostrado un rendimiento notable en problemas de razonamiento complejo. Sin embargo, este proceso de pensamiento resulta redundante para problemas simples que pueden resolverse sin un razonamiento complejo. Para abordar esta ineficiencia, proponemos R-4B, un MLLM de pensamiento automático, que puede decidir de manera adaptativa cuándo pensar en función de la complejidad del problema. La idea central de R-4B es dotar al modelo con capacidades tanto de pensamiento como de no pensamiento utilizando un recocido bi-modal, y aplicar la Optimización de Política Bi-modal (BPO) para mejorar la precisión del modelo al determinar si activar el proceso de pensamiento. Específicamente, primero entrenamos el modelo en un conjunto de datos cuidadosamente seleccionado que abarca diversos temas, el cual contiene muestras de ambos modos, pensamiento y no pensamiento. Luego, el modelo pasa por una segunda fase de entrenamiento bajo un marco GRPO mejorado, donde el modelo de política es forzado a generar respuestas desde ambos modos para cada consulta de entrada. Los resultados experimentales muestran que R-4B alcanza un rendimiento de vanguardia en 25 benchmarks desafiantes. Supera a Qwen2.5-VL-7B en la mayoría de las tareas y logra un rendimiento comparable a modelos más grandes como Kimi-VL-A3B-Thinking-2506 (16B) en benchmarks intensivos en razonamiento, con un menor costo computacional.
English
Multimodal Large Language Models (MLLMs) equipped with step-by-step thinking
capabilities have demonstrated remarkable performance on complex reasoning
problems. However, this thinking process is redundant for simple problems
solvable without complex reasoning. To address this inefficiency, we propose
R-4B, an auto-thinking MLLM, which can adaptively decide when to think based on
problem complexity. The central idea of R-4B is to empower the model with both
thinking and non-thinking capabilities using bi-mode annealing, and apply
Bi-mode Policy Optimization~(BPO) to improve the model's accuracy in
determining whether to activate the thinking process. Specifically, we first
train the model on a carefully curated dataset spanning various topics, which
contains samples from both thinking and non-thinking modes. Then it undergoes a
second phase of training under an improved GRPO framework, where the policy
model is forced to generate responses from both modes for each input query.
Experimental results show that R-4B achieves state-of-the-art performance
across 25 challenging benchmarks. It outperforms Qwen2.5-VL-7B in most tasks
and achieves performance comparable to larger models such as
Kimi-VL-A3B-Thinking-2506 (16B) on reasoning-intensive benchmarks with lower
computational cost.