ChatPaper.aiChatPaper

SAIL-RL: Sturing van MLLM's in Wanneer en Hoe te Denken via RL-afstemming met Dubbele Beloning

SAIL-RL: Guiding MLLMs in When and How to Think via Dual-Reward RL Tuning

November 4, 2025
Auteurs: Fangxun Shu, Yongjie Ye, Yue Liao, Zijian Kang, Weijie Yin, Jiacong Wang, Xiao Liang, Shuicheng Yan, Chao Feng
cs.AI

Samenvatting

Wij introduceren SAIL-RL, een raamwerk voor reinforcement learning (RL) na de training, dat de redeneercapaciteiten van multimodale grote taalmodellen (MLLM's) verbetert door hen te leren wanneer en hoe ze moeten denken. Bestaande benaderingen worden beperkt door enkelvoudige uitkomstsupervisie, die correcte antwoorden beloont zonder een degelijke redenering te garanderen, en door uniforme denkstrategieën, die vaak leiden tot overdreven nadenken bij eenvoudige taken en te weinig nadenken bij complexe taken. SAIL-RL lost deze problemen op met een dubbel beloningssysteem: de Denkbeloning, die de redeneerkwaliteit evalueert op basis van feitelijke onderbouwing, logische samenhang en antwoordconsistentie, en de Beoordelingsbeloning, die adaptief bepaalt of diep nadenken of direct antwoorden gepast is. Experimenten met de state-of-the-art SAIL-VL2 tonen aan dat SAIL-RL de prestaties verbetert op redeneer- en multimodale begripsbenchmarks op zowel 4B- als 8B-schaal, competitieve prestaties bereikt ten opzichte van commerciële closed-source modellen zoals GPT-4o, en hallucinaties aanzienlijk vermindert. Dit vestigt SAIL-RL als een principieel raamwerk voor het bouwen van betrouwbaardere en adaptievere MLLM's. De code zal beschikbaar zijn op https://github.com/BytedanceDouyinContent/SAIL-RL.
English
We introduce SAIL-RL, a reinforcement learning (RL) post-training framework that enhances the reasoning capabilities of multimodal large language models (MLLMs) by teaching them when and how to think. Existing approaches are limited by outcome-only supervision, which rewards correct answers without ensuring sound reasoning, and by uniform thinking strategies, which often lead to overthinking on simple tasks and underthinking on complex ones. SAIL-RL addresses these challenges with a dual reward system: the Thinking Reward, which evaluates reasoning quality through factual grounding, logical coherence, and answer consistency, and the Judging Reward, which adaptively determines whether deep reasoning or direct answering is appropriate. Experiments on the state-of-the-art SAIL-VL2 show that SAIL-RL improves reasoning and multimodal understanding benchmarks at both 4B and 8B scales, achieving competitive performance against commercial closed-source models such as GPT-4o, and substantially reduces hallucinations, establishing it as a principled framework for building more reliable and adaptive MLLMs. The code will be available at https://github.com/BytedanceDouyinContent/SAIL-RL.
PDF32December 2, 2025