ChatPaper.aiChatPaper

R-4B: 양방향 모드 어닐링과 강화 학습을 통해 MLLM의 범용 자동 사고 능력 강화

R-4B: Incentivizing General-Purpose Auto-Thinking Capability in MLLMs via Bi-Mode Annealing and Reinforce Learning

August 28, 2025
저자: Jie Jiang, Qi Yang, Bolin Ni, Shiming Xiang, Han Hu, Houwen Peng
cs.AI

초록

단계별 사고 능력을 갖춘 다중모달 대형 언어 모델(MLLM)은 복잡한 추론 문제에서 뛰어난 성능을 보여왔습니다. 그러나 단순한 문제의 경우 이러한 사고 과정은 불필요한 오버헤드를 초래합니다. 이러한 비효율성을 해결하기 위해, 우리는 문제의 복잡도에 따라 적응적으로 사고 여부를 결정할 수 있는 자동 사고 MLLM인 R-4B를 제안합니다. R-4B의 핵심 아이디어는 이중 모드 어닐링(annealing)을 통해 모델에 사고 모드와 비사고 모드 모두를 부여하고, Bi-mode Policy Optimization(BPO)을 적용하여 사고 과정 활성화 여부를 결정하는 모델의 정확도를 향상시키는 것입니다. 구체적으로, 먼저 다양한 주제를 아우르는 신중하게 선별된 데이터셋에서 모델을 학습시킵니다. 이 데이터셋은 사고 모드와 비사고 모드 샘플을 모두 포함합니다. 이후 개선된 GRPO 프레임워크 하에서 두 번째 학습 단계를 진행하며, 이때 정책 모델은 각 입력 쿼리에 대해 두 모드 모두에서 응답을 생성하도록 강제됩니다. 실험 결과, R-4B는 25개의 도전적인 벤치마크에서 최첨단 성능을 달성했습니다. 대부분의 작업에서 Qwen2.5-VL-7B를 능가했으며, 추론 집약적인 벤치마크에서는 Kimi-VL-A3B-Thinking-2506(16B)과 같은 더 큰 모델과 비슷한 성능을 더 낮은 계산 비용으로 달성했습니다.
English
Multimodal Large Language Models (MLLMs) equipped with step-by-step thinking capabilities have demonstrated remarkable performance on complex reasoning problems. However, this thinking process is redundant for simple problems solvable without complex reasoning. To address this inefficiency, we propose R-4B, an auto-thinking MLLM, which can adaptively decide when to think based on problem complexity. The central idea of R-4B is to empower the model with both thinking and non-thinking capabilities using bi-mode annealing, and apply Bi-mode Policy Optimization~(BPO) to improve the model's accuracy in determining whether to activate the thinking process. Specifically, we first train the model on a carefully curated dataset spanning various topics, which contains samples from both thinking and non-thinking modes. Then it undergoes a second phase of training under an improved GRPO framework, where the policy model is forced to generate responses from both modes for each input query. Experimental results show that R-4B achieves state-of-the-art performance across 25 challenging benchmarks. It outperforms Qwen2.5-VL-7B in most tasks and achieves performance comparable to larger models such as Kimi-VL-A3B-Thinking-2506 (16B) on reasoning-intensive benchmarks with lower computational cost.
PDF1092September 1, 2025