ChatPaper.aiChatPaper

SAIL-RL: Guiando a los MLLM sobre Cuándo y Cómo Pensar mediante Sintonización RL de Recompensa Dual

SAIL-RL: Guiding MLLMs in When and How to Think via Dual-Reward RL Tuning

November 4, 2025
Autores: Fangxun Shu, Yongjie Ye, Yue Liao, Zijian Kang, Weijie Yin, Jiacong Wang, Xiao Liang, Shuicheng Yan, Chao Feng
cs.AI

Resumen

Presentamos SAIL-RL, un marco de post-entrenamiento por aprendizaje por refuerzo (RL) que mejora las capacidades de razonamiento de los modelos de lenguaje grandes multimodales (MLLMs) enseñándoles cuándo y cómo pensar. Los enfoques existentes están limitados por una supervisión basada únicamente en resultados, que premia respuestas correctas sin garantizar un razonamiento sólido, y por estrategias de pensamiento uniformes, que a menudo conducen a un exceso de análisis en tareas simples y a un análisis insuficiente en tareas complejas. SAIL-RL aborda estos desafíos con un sistema de recompensas dual: la Recompensa de Pensamiento, que evalúa la calidad del razonamiento mediante su fundamentación factual, coherencia lógica y consistencia con la respuesta, y la Recompensa de Juicio, que determina de manera adaptativa si es apropiado un razonamiento profundo o una respuesta directa. Los experimentos realizados con el modelo de última generación SAIL-VL2 demuestran que SAIL-RL mejora los puntos de referencia de razonamiento y comprensión multimodal tanto en escalas de 4B como de 8B, logrando un rendimiento competitivo frente a modelos comerciales de código cerrado como GPT-4o, y reduce sustancialmente las alucinaciones, estableciéndose como un marco de principios para construir MLLMs más confiables y adaptativos. El código estará disponible en https://github.com/BytedanceDouyinContent/SAIL-RL.
English
We introduce SAIL-RL, a reinforcement learning (RL) post-training framework that enhances the reasoning capabilities of multimodal large language models (MLLMs) by teaching them when and how to think. Existing approaches are limited by outcome-only supervision, which rewards correct answers without ensuring sound reasoning, and by uniform thinking strategies, which often lead to overthinking on simple tasks and underthinking on complex ones. SAIL-RL addresses these challenges with a dual reward system: the Thinking Reward, which evaluates reasoning quality through factual grounding, logical coherence, and answer consistency, and the Judging Reward, which adaptively determines whether deep reasoning or direct answering is appropriate. Experiments on the state-of-the-art SAIL-VL2 show that SAIL-RL improves reasoning and multimodal understanding benchmarks at both 4B and 8B scales, achieving competitive performance against commercial closed-source models such as GPT-4o, and substantially reduces hallucinations, establishing it as a principled framework for building more reliable and adaptive MLLMs. The code will be available at https://github.com/BytedanceDouyinContent/SAIL-RL.
PDF32December 2, 2025