SAIL-RL: 이중 보상 강화학습을 통한 MLLM의 '언제, 어떻게 생각할지' 지도 학습
SAIL-RL: Guiding MLLMs in When and How to Think via Dual-Reward RL Tuning
November 4, 2025
저자: Fangxun Shu, Yongjie Ye, Yue Liao, Zijian Kang, Weijie Yin, Jiacong Wang, Xiao Liang, Shuicheng Yan, Chao Feng
cs.AI
초록
SAIL-RL은 다중모드 대규모 언어 모델(MLLM)의 추론 능력을 향상시키기 위해, 모델에게 '언제 생각해야 하는지'와 '어떻게 생각해야 하는지'를 가르치는 강화학습(RL) 사후 학습 프레임워크입니다. 기존 접근법은 정답만을 보상하는 결과 기반 감독으로 인해 건전한 추론 과정을 보장하지 못하며, 균일한 사고 전략으로 인해 단순 작업에서는 지나친 사고를, 복잡한 작업에서는 충분하지 않은 사고를 초래하는 한계가 있었습니다. SAIL-RL은 이중 보상 시스템을 통해 이러한 문제를 해결합니다: 사실 근거성, 논리적 일관성, 답변 일관성을 통해 추론의 질을 평가하는 '사고 보상'과, 심층 추론과 직접 답변 중 어떤 방식이 적절한지를 상황에 맞게 판단하는 '판단 보상'으로 구성됩니다. 최신 모델인 SAIL-VL2를 대상으로 한 실험에서 SAIL-RL은 4B와 8B 규모 모두에서 추론 및 다중모드 이해 벤치마크를 개선했으며, GPT-4o와 같은 상용 폐쇄형 모델 대비 경쟁력 있는 성능을 달성하고 환각 현상을 현저히 줄여, 더 신뢰할 수 있고 적응적인 MLLM 구축을 위한 체계적인 프레임워크임을 입증했습니다. 코드는 https://github.com/BytedanceDouyinContent/SAIL-RL에서 공개될 예정입니다.
English
We introduce SAIL-RL, a reinforcement learning (RL) post-training framework
that enhances the reasoning capabilities of multimodal large language models
(MLLMs) by teaching them when and how to think. Existing approaches are limited
by outcome-only supervision, which rewards correct answers without ensuring
sound reasoning, and by uniform thinking strategies, which often lead to
overthinking on simple tasks and underthinking on complex ones. SAIL-RL
addresses these challenges with a dual reward system: the Thinking Reward,
which evaluates reasoning quality through factual grounding, logical coherence,
and answer consistency, and the Judging Reward, which adaptively determines
whether deep reasoning or direct answering is appropriate. Experiments on the
state-of-the-art SAIL-VL2 show that SAIL-RL improves reasoning and multimodal
understanding benchmarks at both 4B and 8B scales, achieving competitive
performance against commercial closed-source models such as GPT-4o, and
substantially reduces hallucinations, establishing it as a principled framework
for building more reliable and adaptive MLLMs. The code will be available at
https://github.com/BytedanceDouyinContent/SAIL-RL.