SAIL-RL: Управление MLLM в вопросах времени и способа мышления с помощью RL-настройки с двойным вознаграждением
SAIL-RL: Guiding MLLMs in When and How to Think via Dual-Reward RL Tuning
November 4, 2025
Авторы: Fangxun Shu, Yongjie Ye, Yue Liao, Zijian Kang, Weijie Yin, Jiacong Wang, Xiao Liang, Shuicheng Yan, Chao Feng
cs.AI
Аннотация
Мы представляем SAIL-RL — фреймворк пост-обучения с подкреплением, который повышает способности к рассуждению мультимодальных больших языковых моделей (MLLM), обучая их тому, когда и как мыслить. Существующие подходы ограничены надзором, ориентированным только на результат (когда поощряются правильные ответы без обеспечения обоснованных рассуждений), и единообразными стратегиями мышления, которые часто приводят к излишним размышлениям на простых задачах и недостаточному анализу на сложных. SAIL-RL решает эти проблемы с помощью двойной системы вознаграждений: «Вознаграждение за мышление», которое оценивает качество рассуждений через фактическую обоснованность, логическую последовательность и согласованность с ответом, и «Вознаграждение за оценку», которое адаптивно определяет, уместно ли глубокое рассуждение или прямой ответ. Эксперименты на передовой модели SAIL-VL2 показывают, что SAIL-RL улучшает результаты на тестах рассуждений и мультимодального понимания для масштабов 4B и 8B параметров, достигая конкурентоспособной производительности по сравнению с коммерческими закрытыми моделями, такими как GPT-4o, и существенно снижает количество галлюцинаций, что подтверждает его статус принципиального фреймворка для создания более надежных и адаптивных MLLM. Код будет доступен по адресу https://github.com/BytedanceDouyinContent/SAIL-RL.
English
We introduce SAIL-RL, a reinforcement learning (RL) post-training framework
that enhances the reasoning capabilities of multimodal large language models
(MLLMs) by teaching them when and how to think. Existing approaches are limited
by outcome-only supervision, which rewards correct answers without ensuring
sound reasoning, and by uniform thinking strategies, which often lead to
overthinking on simple tasks and underthinking on complex ones. SAIL-RL
addresses these challenges with a dual reward system: the Thinking Reward,
which evaluates reasoning quality through factual grounding, logical coherence,
and answer consistency, and the Judging Reward, which adaptively determines
whether deep reasoning or direct answering is appropriate. Experiments on the
state-of-the-art SAIL-VL2 show that SAIL-RL improves reasoning and multimodal
understanding benchmarks at both 4B and 8B scales, achieving competitive
performance against commercial closed-source models such as GPT-4o, and
substantially reduces hallucinations, establishing it as a principled framework
for building more reliable and adaptive MLLMs. The code will be available at
https://github.com/BytedanceDouyinContent/SAIL-RL.