R-4B: Incentivizzare la Capacità di Auto-Ragionamento Generale nei MLLM tramite Annealing Bi-Modale e Apprendimento per Rinforzo
R-4B: Incentivizing General-Purpose Auto-Thinking Capability in MLLMs via Bi-Mode Annealing and Reinforce Learning
August 28, 2025
Autori: Jie Jiang, Qi Yang, Bolin Ni, Shiming Xiang, Han Hu, Houwen Peng
cs.AI
Abstract
I Modelli Linguistici Multimodali di Grande Dimensione (MLLM) dotati di capacità di pensiero passo-passo hanno dimostrato prestazioni notevoli su problemi complessi che richiedono ragionamento. Tuttavia, questo processo di pensiero risulta ridondante per problemi semplici che possono essere risolti senza un ragionamento complesso. Per affrontare questa inefficienza, proponiamo R-4B, un MLLM a pensiero automatico, che può decidere in modo adattivo quando attivare il pensiero in base alla complessità del problema. L'idea centrale di R-4B è quella di dotare il modello sia di capacità di pensiero che di non-pensiero utilizzando un annealing bi-modale e applicare l'Ottimizzazione della Politica Bi-modale (BPO) per migliorare l'accuratezza del modello nel determinare se attivare il processo di pensiero. Nello specifico, addestriamo prima il modello su un dataset accuratamente curato che copre vari argomenti, contenente campioni sia in modalità di pensiero che di non-pensiero. Successivamente, il modello viene sottoposto a una seconda fase di addestramento sotto un framework GRPO migliorato, in cui il modello di politica è costretto a generare risposte da entrambe le modalità per ogni query di input. I risultati sperimentali mostrano che R-4B raggiunge prestazioni all'avanguardia su 25 benchmark impegnativi. Supera Qwen2.5-VL-7B nella maggior parte dei compiti e raggiunge prestazioni paragonabili a modelli più grandi come Kimi-VL-A3B-Thinking-2506 (16B) su benchmark intensivi di ragionamento, con un costo computazionale inferiore.
English
Multimodal Large Language Models (MLLMs) equipped with step-by-step thinking
capabilities have demonstrated remarkable performance on complex reasoning
problems. However, this thinking process is redundant for simple problems
solvable without complex reasoning. To address this inefficiency, we propose
R-4B, an auto-thinking MLLM, which can adaptively decide when to think based on
problem complexity. The central idea of R-4B is to empower the model with both
thinking and non-thinking capabilities using bi-mode annealing, and apply
Bi-mode Policy Optimization~(BPO) to improve the model's accuracy in
determining whether to activate the thinking process. Specifically, we first
train the model on a carefully curated dataset spanning various topics, which
contains samples from both thinking and non-thinking modes. Then it undergoes a
second phase of training under an improved GRPO framework, where the policy
model is forced to generate responses from both modes for each input query.
Experimental results show that R-4B achieves state-of-the-art performance
across 25 challenging benchmarks. It outperforms Qwen2.5-VL-7B in most tasks
and achieves performance comparable to larger models such as
Kimi-VL-A3B-Thinking-2506 (16B) on reasoning-intensive benchmarks with lower
computational cost.