SAIL-RL : Guider les MLLM sur le Quand et le Comment Réfléchir via un Réglage par Renforcement à Double Récompense
SAIL-RL: Guiding MLLMs in When and How to Think via Dual-Reward RL Tuning
November 4, 2025
papers.authors: Fangxun Shu, Yongjie Ye, Yue Liao, Zijian Kang, Weijie Yin, Jiacong Wang, Xiao Liang, Shuicheng Yan, Chao Feng
cs.AI
papers.abstract
Nous présentons SAIL-RL, un cadre d'apprentissage par renforcement (RL) post-entraînement qui améliore les capacités de raisonnement des modèles de langage multimodaux de grande taille (MLLM) en leur apprenant quand et comment réfléchir. Les approches existantes sont limitées par une supervision basée uniquement sur les résultats, qui récompense les bonnes réponses sans garantir un raisonnement solide, et par des stratégies de réflexion uniformes, conduisant souvent à une réflexion excessive sur des tâches simples et insuffisante sur des problèmes complexes. SAIL-RL relève ces défis avec un système de récompense dual : la Récompense de Réflexion, qui évalue la qualité du raisonnement via l'enracinement factuel, la cohérence logique et la consistance des réponses, et la Récompense de Jugement, qui détermine de manière adaptative si un raisonnement approfondi ou une réponse directe est approprié. Les expériences sur le modèle SAIL-VL2, à la pointe de l'état de l'art, montrent que SAIL-RL améliore les performances sur des benchmarks de raisonnement et de compréhension multimodale aux échelles 4B et 8B, atteignant des performances compétitives face à des modèles commerciaux fermés comme GPT-4o, et réduit substantiellement les hallucinations, l'établissant comme un cadre principiel pour construire des MLLM plus fiables et adaptatifs. Le code sera disponible à l'adresse https://github.com/BytedanceDouyinContent/SAIL-RL.
English
We introduce SAIL-RL, a reinforcement learning (RL) post-training framework
that enhances the reasoning capabilities of multimodal large language models
(MLLMs) by teaching them when and how to think. Existing approaches are limited
by outcome-only supervision, which rewards correct answers without ensuring
sound reasoning, and by uniform thinking strategies, which often lead to
overthinking on simple tasks and underthinking on complex ones. SAIL-RL
addresses these challenges with a dual reward system: the Thinking Reward,
which evaluates reasoning quality through factual grounding, logical coherence,
and answer consistency, and the Judging Reward, which adaptively determines
whether deep reasoning or direct answering is appropriate. Experiments on the
state-of-the-art SAIL-VL2 show that SAIL-RL improves reasoning and multimodal
understanding benchmarks at both 4B and 8B scales, achieving competitive
performance against commercial closed-source models such as GPT-4o, and
substantially reduces hallucinations, establishing it as a principled framework
for building more reliable and adaptive MLLMs. The code will be available at
https://github.com/BytedanceDouyinContent/SAIL-RL.