ChatPaper.aiChatPaper

SAIL-RL: Steuerung von MLLMs bezüglich Wann und Wie sie denken mittels Dual-Belohnungs-RL-Abstimmung

SAIL-RL: Guiding MLLMs in When and How to Think via Dual-Reward RL Tuning

November 4, 2025
papers.authors: Fangxun Shu, Yongjie Ye, Yue Liao, Zijian Kang, Weijie Yin, Jiacong Wang, Xiao Liang, Shuicheng Yan, Chao Feng
cs.AI

papers.abstract

Wir stellen SAIL-RL vor, ein Reinforcement-Learning (RL) Nachtrainierungs-Framework, das die Reasoning-Fähigkeiten multimodaler großer Sprachmodelle (MLLMs) verbessert, indem es ihnen beibringt, wann und wie sie „denken“ sollen. Bestehende Ansätze sind durch reine Ergebnisüberwachung eingeschränkt, die korrekte Antworten belohnt, ohne solide Schlussfolgerungen zu gewährleisten, sowie durch einheitliche Denkstrategien, die oft zu Überdenken bei einfachen Aufgaben und Unterdenken bei komplexen Aufgaben führen. SAIL-RL adressiert diese Herausforderungen mit einem dualen Belohnungssystem: der Denk-Belohnung (Thinking Reward), die die Qualität der Schlussfolgerung anhand faktischer Fundierung, logischer Kohärenz und Antwortkonsistenz bewertet, und der Urteils-Belohnung (Judging Reward), die adaptiv bestimmt, ob tiefgehendes Reasoning oder direktes Antworten angemessen ist. Experimente mit dem state-of-the-art Modell SAIL-VL2 zeigen, dass SAIL-RL die Benchmarks für logisches Denken und multimodales Verständnis sowohl bei 4B- als auch 8B-Modellgrößen verbessert, eine wettbewerbsfähige Performance gegenüber kommerziellen Closed-Source-Modellen wie GPT-4o erreicht und Halluzinationen erheblich reduziert. Dies etabliert SAIL-RL als ein prinzipienbasiertes Framework für den Aufbau zuverlässigerer und adaptiverer MLLMs. Der Code wird unter https://github.com/BytedanceDouyinContent/SAIL-RL verfügbar sein.
English
We introduce SAIL-RL, a reinforcement learning (RL) post-training framework that enhances the reasoning capabilities of multimodal large language models (MLLMs) by teaching them when and how to think. Existing approaches are limited by outcome-only supervision, which rewards correct answers without ensuring sound reasoning, and by uniform thinking strategies, which often lead to overthinking on simple tasks and underthinking on complex ones. SAIL-RL addresses these challenges with a dual reward system: the Thinking Reward, which evaluates reasoning quality through factual grounding, logical coherence, and answer consistency, and the Judging Reward, which adaptively determines whether deep reasoning or direct answering is appropriate. Experiments on the state-of-the-art SAIL-VL2 show that SAIL-RL improves reasoning and multimodal understanding benchmarks at both 4B and 8B scales, achieving competitive performance against commercial closed-source models such as GPT-4o, and substantially reduces hallucinations, establishing it as a principled framework for building more reliable and adaptive MLLMs. The code will be available at https://github.com/BytedanceDouyinContent/SAIL-RL.
PDF32December 2, 2025