SAIL-RL: Guidare i MLLM su Quando e Come Ragionare Tramite Ottimizzazione RL a Doppia Ricompensa
SAIL-RL: Guiding MLLMs in When and How to Think via Dual-Reward RL Tuning
November 4, 2025
Autori: Fangxun Shu, Yongjie Ye, Yue Liao, Zijian Kang, Weijie Yin, Jiacong Wang, Xiao Liang, Shuicheng Yan, Chao Feng
cs.AI
Abstract
Introduciamo SAIL-RL, un framework di post-addestramento per l'apprendimento per rinforzo (RL) che potenzia le capacità di ragionamento dei modelli linguistici multimodali di grandi dimensioni (MLLM) insegnando loro quando e come pensare. Gli approcci esistenti sono limitati dalla supervisione basata solo sul risultato, che premia le risposte corrette senza garantire un ragionamento solido, e da strategie di pensiero uniformi, che spesso portano a un eccesso di ragionamento su compiti semplici e a una carenza di ragionamento su quelli complessi. SAIL-RL affronta queste sfide con un sistema di ricompensa duale: la Ricompensa per il Pensiero, che valuta la qualità del ragionamento attraverso l'ancoraggio fattuale, la coerenza logica e la coerenza della risposta, e la Ricompensa di Giudizio, che determina in modo adattivo quando è appropriato un ragionamento approfondito o una risposta diretta. Esperimenti sullo stato dell'arte SAIL-VL2 mostrano che SAIL-RL migliora i benchmark di ragionamento e comprensione multimodale sia a scala 4B che 8B, raggiungendo prestazioni competitive rispetto a modelli commerciali closed-source come GPT-4o, e riduce sostanzialmente le allucinazioni, stabilendosi come un framework principiato per costruire MLLM più affidabili e adattivi. Il codice sarà disponibile su https://github.com/BytedanceDouyinContent/SAIL-RL.
English
We introduce SAIL-RL, a reinforcement learning (RL) post-training framework
that enhances the reasoning capabilities of multimodal large language models
(MLLMs) by teaching them when and how to think. Existing approaches are limited
by outcome-only supervision, which rewards correct answers without ensuring
sound reasoning, and by uniform thinking strategies, which often lead to
overthinking on simple tasks and underthinking on complex ones. SAIL-RL
addresses these challenges with a dual reward system: the Thinking Reward,
which evaluates reasoning quality through factual grounding, logical coherence,
and answer consistency, and the Judging Reward, which adaptively determines
whether deep reasoning or direct answering is appropriate. Experiments on the
state-of-the-art SAIL-VL2 show that SAIL-RL improves reasoning and multimodal
understanding benchmarks at both 4B and 8B scales, achieving competitive
performance against commercial closed-source models such as GPT-4o, and
substantially reduces hallucinations, establishing it as a principled framework
for building more reliable and adaptive MLLMs. The code will be available at
https://github.com/BytedanceDouyinContent/SAIL-RL.