SAIL-RL: Orientando MLLMs sobre Quando e Como Pensar por meio de Sintonia por RL com Dupla Recompensa

Resumo

Apresentamos o SAIL-RL, uma estrutura de pós-treinamento por reforço (RL) que aprimora as capacidades de raciocínio de modelos de linguagem grandes multimodais (MLLMs) ao ensiná-los quando e como pensar. As abordagens existentes são limitadas pela supervisão baseada apenas no resultado, que recompensa respostas corretas sem garantir um raciocínio sólido, e por estratégias de pensamento uniformes, que frequentemente levam ao excesso de análise em tarefas simples e à análise insuficiente em tarefas complexas. O SAIL-RL aborda esses desafigos com um sistema de recompensa duplo: a Recompensa pelo Pensamento, que avalia a qualidade do raciocínio por meio de fundamentação factual, coerência lógica e consistência da resposta, e a Recompensa de Julgamento, que determina adaptivamente se o raciocínio profundo ou a resposta direta é apropriada. Experimentos com o estado da arte SAIL-VL2 mostram que o SAIL-RL melhora os benchmarks de raciocínio e compreensão multimodal em escalas de 4B e 8B, alcançando desempenho competitivo contra modelos comerciais de código fechado, como o GPT-4o, e reduz substancialmente as alucinações, estabelecendo-se como uma estrutura fundamentada para a construção de MLLMs mais confiáveis e adaptativos. O código estará disponível em https://github.com/BytedanceDouyinContent/SAIL-RL.

English

We introduce SAIL-RL, a reinforcement learning (RL) post-training framework that enhances the reasoning capabilities of multimodal large language models (MLLMs) by teaching them when and how to think. Existing approaches are limited by outcome-only supervision, which rewards correct answers without ensuring sound reasoning, and by uniform thinking strategies, which often lead to overthinking on simple tasks and underthinking on complex ones. SAIL-RL addresses these challenges with a dual reward system: the Thinking Reward, which evaluates reasoning quality through factual grounding, logical coherence, and answer consistency, and the Judging Reward, which adaptively determines whether deep reasoning or direct answering is appropriate. Experiments on the state-of-the-art SAIL-VL2 show that SAIL-RL improves reasoning and multimodal understanding benchmarks at both 4B and 8B scales, achieving competitive performance against commercial closed-source models such as GPT-4o, and substantially reduces hallucinations, establishing it as a principled framework for building more reliable and adaptive MLLMs. The code will be available at https://github.com/BytedanceDouyinContent/SAIL-RL.

SAIL-RL: Orientando MLLMs sobre Quando e Como Pensar por meio de Sintonia por RL com Dupla Recompensa

SAIL-RL: Guiding MLLMs in When and How to Think via Dual-Reward RL Tuning

Resumo

Support