VL-Rethinker: Incentivando a Autorreflexão de Modelos Visão-Linguagem com Aprendizado por Reforço
VL-Rethinker: Incentivizing Self-Reflection of Vision-Language Models with Reinforcement Learning
April 10, 2025
Autores: Haozhe Wang, Chao Qu, Zuming Huang, Wei Chu, Fangzhen Lin, Wenhu Chen
cs.AI
Resumo
Recentemente, sistemas de pensamento lento como o GPT-o1 e o DeepSeek-R1 demonstraram grande potencial na resolução de problemas desafiadores por meio de reflexão explícita. Eles superam significativamente os melhores modelos de pensamento rápido, como o GPT-4o, em diversos benchmarks de matemática e ciências. No entanto, suas capacidades de raciocínio multimodal permanecem equivalentes às dos modelos de pensamento rápido. Por exemplo, o desempenho do GPT-o1 em benchmarks como MathVista, MathVerse e MathVision é semelhante ao dos modelos de pensamento rápido. Neste artigo, buscamos aprimorar as capacidades de pensamento lento de modelos de visão e linguagem utilizando aprendizado por reforço (sem depender de destilação) para avançar o estado da arte. Primeiro, adaptamos o algoritmo GRPO com uma nova técnica chamada Replay Seletivo de Amostras (SSR) para abordar o problema das vantagens desaparecidas. Embora essa abordagem resulte em um desempenho forte, os modelos treinados com RL resultantes exibem reflexão ou auto-verificação limitadas. Para incentivar ainda mais o pensamento lento, introduzimos o Repensar Forçado, que adiciona um gatilho textual de repensar ao final das execuções iniciais no treinamento de RL, impondo explicitamente uma etapa de raciocínio de auto-reflexão. Ao combinar essas duas técnicas, nosso modelo, VL-Rethinker, avança as pontuações de estado da arte no MathVista, MathVerse e MathVision para alcançar 80,3%, 61,8% e 43,9%, respectivamente. O VL-Rethinker também alcança o SoTA de código aberto em benchmarks multidisciplinares como MMMU-Pro, EMMA e MEGA-Bench, reduzindo a lacuna com o GPT-o1.
English
Recently, slow-thinking systems like GPT-o1 and DeepSeek-R1 have demonstrated
great potential in solving challenging problems through explicit reflection.
They significantly outperform the best fast-thinking models, such as GPT-4o, on
various math and science benchmarks. However, their multimodal reasoning
capabilities remain on par with fast-thinking models. For instance, GPT-o1's
performance on benchmarks like MathVista, MathVerse, and MathVision is similar
to fast-thinking models. In this paper, we aim to enhance the slow-thinking
capabilities of vision-language models using reinforcement learning (without
relying on distillation) to advance the state of the art. First, we adapt the
GRPO algorithm with a novel technique called Selective Sample Replay (SSR) to
address the vanishing advantages problem. While this approach yields strong
performance, the resulting RL-trained models exhibit limited self-reflection or
self-verification. To further encourage slow-thinking, we introduce Forced
Rethinking, which appends a textual rethinking trigger to the end of initial
rollouts in RL training, explicitly enforcing a self-reflection reasoning step.
By combining these two techniques, our model, VL-Rethinker, advances
state-of-the-art scores on MathVista, MathVerse, and MathVision to achieve
80.3%, 61.8%, and 43.9% respectively. VL-Rethinker also achieves open-source
SoTA on multi-disciplinary benchmarks such as MMMU-Pro, EMMA, and MEGA-Bench,
narrowing the gap with GPT-o1.Summary
AI-Generated Summary