R-4B: Incentivizando la capacidad de pensamiento automático de propósito general en MLLMs mediante recocido bimodal y aprendizaje por refuerzo

Resumen

Los Modelos de Lenguaje Multimodales de Gran Escala (MLLMs) equipados con capacidades de pensamiento paso a paso han demostrado un rendimiento notable en problemas de razonamiento complejo. Sin embargo, este proceso de pensamiento resulta redundante para problemas simples que pueden resolverse sin un razonamiento complejo. Para abordar esta ineficiencia, proponemos R-4B, un MLLM de pensamiento automático, que puede decidir de manera adaptativa cuándo pensar en función de la complejidad del problema. La idea central de R-4B es dotar al modelo con capacidades tanto de pensamiento como de no pensamiento utilizando un recocido bi-modal, y aplicar la Optimización de Política Bi-modal (BPO) para mejorar la precisión del modelo al determinar si activar el proceso de pensamiento. Específicamente, primero entrenamos el modelo en un conjunto de datos cuidadosamente seleccionado que abarca diversos temas, el cual contiene muestras de ambos modos, pensamiento y no pensamiento. Luego, el modelo pasa por una segunda fase de entrenamiento bajo un marco GRPO mejorado, donde el modelo de política es forzado a generar respuestas desde ambos modos para cada consulta de entrada. Los resultados experimentales muestran que R-4B alcanza un rendimiento de vanguardia en 25 benchmarks desafiantes. Supera a Qwen2.5-VL-7B en la mayoría de las tareas y logra un rendimiento comparable a modelos más grandes como Kimi-VL-A3B-Thinking-2506 (16B) en benchmarks intensivos en razonamiento, con un menor costo computacional.

English

Multimodal Large Language Models (MLLMs) equipped with step-by-step thinking capabilities have demonstrated remarkable performance on complex reasoning problems. However, this thinking process is redundant for simple problems solvable without complex reasoning. To address this inefficiency, we propose R-4B, an auto-thinking MLLM, which can adaptively decide when to think based on problem complexity. The central idea of R-4B is to empower the model with both thinking and non-thinking capabilities using bi-mode annealing, and apply Bi-mode Policy Optimization~(BPO) to improve the model's accuracy in determining whether to activate the thinking process. Specifically, we first train the model on a carefully curated dataset spanning various topics, which contains samples from both thinking and non-thinking modes. Then it undergoes a second phase of training under an improved GRPO framework, where the policy model is forced to generate responses from both modes for each input query. Experimental results show that R-4B achieves state-of-the-art performance across 25 challenging benchmarks. It outperforms Qwen2.5-VL-7B in most tasks and achieves performance comparable to larger models such as Kimi-VL-A3B-Thinking-2506 (16B) on reasoning-intensive benchmarks with lower computational cost.

R-4B: Incentivizando la capacidad de pensamiento automático de propósito general en MLLMs mediante recocido bimodal y aprendizaje por refuerzo

R-4B: Incentivizing General-Purpose Auto-Thinking Capability in MLLMs via Bi-Mode Annealing and Reinforce Learning

Resumen

Support