ChatPaper.aiChatPaper

VL-Rethinker: 강화 학습을 통한 시각-언어 모델의 자기 성찰 유도

VL-Rethinker: Incentivizing Self-Reflection of Vision-Language Models with Reinforcement Learning

April 10, 2025
저자: Haozhe Wang, Chao Qu, Zuming Huang, Wei Chu, Fangzhen Lin, Wenhu Chen
cs.AI

초록

최근 GPT-o1과 DeepSeek-R1과 같은 느린 사고 시스템이 명시적 반사를 통해 어려운 문제를 해결하는 데 있어 큰 잠재력을 보여주었다. 이들은 다양한 수학 및 과학 벤치마크에서 GPT-4o와 같은 최고의 빠른 사고 모델을 크게 능가한다. 그러나 이들의 다중 모드 추론 능력은 빠른 사고 모델과 비슷한 수준에 머물러 있다. 예를 들어, GPT-o1의 MathVista, MathVerse, MathVision과 같은 벤치마크에서의 성능은 빠른 사고 모델과 유사하다. 본 논문에서는 증류(distillation)에 의존하지 않고 강화 학습을 활용하여 시각-언어 모델의 느린 사고 능력을 향상시켜 최신 기술 수준을 발전시키고자 한다. 먼저, 우리는 GRPO 알고리즘을 선택적 샘플 재생(Selective Sample Replay, SSR)이라는 새로운 기술로 적응시켜 사라지는 이점 문제를 해결한다. 이 접근법은 강력한 성능을 보이지만, 결과적으로 강화 학습으로 훈련된 모델은 자체 반사 또는 자체 검증 능력이 제한적이다. 느린 사고를 더욱 촉진하기 위해, 우리는 강제 재고(Forced Rethinking)를 도입하여 강화 학습 훈련의 초기 롤아웃 끝에 텍스트 재고 트리거를 추가함으로써 명시적으로 자체 반사 추론 단계를 강제한다. 이 두 기술을 결합함으로써, 우리의 모델인 VL-Rethinker는 MathVista, MathVerse, MathVision에서 각각 80.3%, 61.8%, 43.9%의 최신 기술 수준 점수를 달성한다. 또한 VL-Rethinker는 MMMU-Pro, EMMA, MEGA-Bench와 같은 다학제적 벤치마크에서 오픈소스 최신 기술 수준을 달성하며, GPT-o1과의 격차를 좁혔다.
English
Recently, slow-thinking systems like GPT-o1 and DeepSeek-R1 have demonstrated great potential in solving challenging problems through explicit reflection. They significantly outperform the best fast-thinking models, such as GPT-4o, on various math and science benchmarks. However, their multimodal reasoning capabilities remain on par with fast-thinking models. For instance, GPT-o1's performance on benchmarks like MathVista, MathVerse, and MathVision is similar to fast-thinking models. In this paper, we aim to enhance the slow-thinking capabilities of vision-language models using reinforcement learning (without relying on distillation) to advance the state of the art. First, we adapt the GRPO algorithm with a novel technique called Selective Sample Replay (SSR) to address the vanishing advantages problem. While this approach yields strong performance, the resulting RL-trained models exhibit limited self-reflection or self-verification. To further encourage slow-thinking, we introduce Forced Rethinking, which appends a textual rethinking trigger to the end of initial rollouts in RL training, explicitly enforcing a self-reflection reasoning step. By combining these two techniques, our model, VL-Rethinker, advances state-of-the-art scores on MathVista, MathVerse, and MathVision to achieve 80.3%, 61.8%, and 43.9% respectively. VL-Rethinker also achieves open-source SoTA on multi-disciplinary benchmarks such as MMMU-Pro, EMMA, and MEGA-Bench, narrowing the gap with GPT-o1.

Summary

AI-Generated Summary

PDF422April 15, 2025