ChatPaper.aiChatPaper

SAIL-RL: 二重報酬強化学習によるMLLMの「いつ・どのように考えるか」の誘導

SAIL-RL: Guiding MLLMs in When and How to Think via Dual-Reward RL Tuning

November 4, 2025
著者: Fangxun Shu, Yongjie Ye, Yue Liao, Zijian Kang, Weijie Yin, Jiacong Wang, Xiao Liang, Shuicheng Yan, Chao Feng
cs.AI

要旨

本論文では、マルチモーダル大規模言語モデル(MLLM)の推論能力を、思考のタイミングと方法を学習させることで強化する強化学習(RL)による事後学習フレームワーク「SAIL-RL」を提案する。既存手法は、正解のみを報酬とする結果ベースの監督によって健全な推論が保証されない点、および一律の思考戦略によって単純なタスクでは過剰な推論を、複雑なタスクでは推論不足を招く点に課題があった。SAIL-RLはこれらを二重の報酬システムで解決する。「思考報酬」は、事実への接地、論理的一貫性、回答一致性を通じて推論の質を評価し、「判断報酬」は、深い推論と直接回答のいずれが適切かを適応的に決定する。最新モデルSAIL-VL2を用いた実験では、SAIL-RLが4Bおよび8Bスケールの両方で推論及びマルチモーダル理解ベンチマークを改善し、GPT-4oなどの商用クローズドソースモデルに対抗可能な性能を達成するとともに、幻覚生成を大幅に低減した。これにより、SAIL-RLはより信頼性が高く適応的なMLLMを構築するための原理に基づいたフレームワークとして確立される。コードはhttps://github.com/BytedanceDouyinContent/SAIL-RL で公開予定である。
English
We introduce SAIL-RL, a reinforcement learning (RL) post-training framework that enhances the reasoning capabilities of multimodal large language models (MLLMs) by teaching them when and how to think. Existing approaches are limited by outcome-only supervision, which rewards correct answers without ensuring sound reasoning, and by uniform thinking strategies, which often lead to overthinking on simple tasks and underthinking on complex ones. SAIL-RL addresses these challenges with a dual reward system: the Thinking Reward, which evaluates reasoning quality through factual grounding, logical coherence, and answer consistency, and the Judging Reward, which adaptively determines whether deep reasoning or direct answering is appropriate. Experiments on the state-of-the-art SAIL-VL2 show that SAIL-RL improves reasoning and multimodal understanding benchmarks at both 4B and 8B scales, achieving competitive performance against commercial closed-source models such as GPT-4o, and substantially reduces hallucinations, establishing it as a principled framework for building more reliable and adaptive MLLMs. The code will be available at https://github.com/BytedanceDouyinContent/SAIL-RL.
PDF32December 2, 2025