VL-Rethinker: Incentivando a Autorreflexão de Modelos Visão-Linguagem com Aprendizado por Reforço

Resumo

Recentemente, sistemas de pensamento lento como o GPT-o1 e o DeepSeek-R1 demonstraram grande potencial na resolução de problemas desafiadores por meio de reflexão explícita. Eles superam significativamente os melhores modelos de pensamento rápido, como o GPT-4o, em diversos benchmarks de matemática e ciências. No entanto, suas capacidades de raciocínio multimodal permanecem equivalentes às dos modelos de pensamento rápido. Por exemplo, o desempenho do GPT-o1 em benchmarks como MathVista, MathVerse e MathVision é semelhante ao dos modelos de pensamento rápido. Neste artigo, buscamos aprimorar as capacidades de pensamento lento de modelos de visão e linguagem utilizando aprendizado por reforço (sem depender de destilação) para avançar o estado da arte. Primeiro, adaptamos o algoritmo GRPO com uma nova técnica chamada Replay Seletivo de Amostras (SSR) para abordar o problema das vantagens desaparecidas. Embora essa abordagem resulte em um desempenho forte, os modelos treinados com RL resultantes exibem reflexão ou auto-verificação limitadas. Para incentivar ainda mais o pensamento lento, introduzimos o Repensar Forçado, que adiciona um gatilho textual de repensar ao final das execuções iniciais no treinamento de RL, impondo explicitamente uma etapa de raciocínio de auto-reflexão. Ao combinar essas duas técnicas, nosso modelo, VL-Rethinker, avança as pontuações de estado da arte no MathVista, MathVerse e MathVision para alcançar 80,3%, 61,8% e 43,9%, respectivamente. O VL-Rethinker também alcança o SoTA de código aberto em benchmarks multidisciplinares como MMMU-Pro, EMMA e MEGA-Bench, reduzindo a lacuna com o GPT-o1.

English

Recently, slow-thinking systems like GPT-o1 and DeepSeek-R1 have demonstrated great potential in solving challenging problems through explicit reflection. They significantly outperform the best fast-thinking models, such as GPT-4o, on various math and science benchmarks. However, their multimodal reasoning capabilities remain on par with fast-thinking models. For instance, GPT-o1's performance on benchmarks like MathVista, MathVerse, and MathVision is similar to fast-thinking models. In this paper, we aim to enhance the slow-thinking capabilities of vision-language models using reinforcement learning (without relying on distillation) to advance the state of the art. First, we adapt the GRPO algorithm with a novel technique called Selective Sample Replay (SSR) to address the vanishing advantages problem. While this approach yields strong performance, the resulting RL-trained models exhibit limited self-reflection or self-verification. To further encourage slow-thinking, we introduce Forced Rethinking, which appends a textual rethinking trigger to the end of initial rollouts in RL training, explicitly enforcing a self-reflection reasoning step. By combining these two techniques, our model, VL-Rethinker, advances state-of-the-art scores on MathVista, MathVerse, and MathVision to achieve 80.3%, 61.8%, and 43.9% respectively. VL-Rethinker also achieves open-source SoTA on multi-disciplinary benchmarks such as MMMU-Pro, EMMA, and MEGA-Bench, narrowing the gap with GPT-o1.

VL-Rethinker: Incentivando a Autorreflexão de Modelos Visão-Linguagem com Aprendizado por Reforço

VL-Rethinker: Incentivizing Self-Reflection of Vision-Language Models with Reinforcement Learning

Resumo

Summary

Support

Support