ChatPaper.aiChatPaper

VL-Rethinker: Стимулирование саморефлексии визуально-языковых моделей с использованием обучения с подкреплением

VL-Rethinker: Incentivizing Self-Reflection of Vision-Language Models with Reinforcement Learning

April 10, 2025
Авторы: Haozhe Wang, Chao Qu, Zuming Huang, Wei Chu, Fangzhen Lin, Wenhu Chen
cs.AI

Аннотация

Недавно медленно мыслящие системы, такие как GPT-o1 и DeepSeek-R1, продемонстрировали значительный потенциал в решении сложных задач благодаря явному процессу рефлексии. Они существенно превосходят лучшие быстро мыслящие модели, такие как GPT-4o, на различных тестах по математике и естественным наукам. Однако их способности к мультимодальным рассуждениям остаются на уровне быстро мыслящих моделей. Например, производительность GPT-o1 на тестах MathVista, MathVerse и MathVision схожа с результатами быстро мыслящих моделей. В данной работе мы стремимся улучшить медленно мыслящие способности моделей, работающих с визуальными и языковыми данными, с использованием обучения с подкреплением (без применения дистилляции), чтобы продвинуть состояние искусства. Сначала мы адаптируем алгоритм GRPO с новой техникой, называемой Selective Sample Replay (SSR), для решения проблемы исчезающих преимуществ. Хотя этот подход демонстрирует высокую производительность, результирующие модели, обученные с подкреплением, показывают ограниченную способность к саморефлексии или самопроверке. Чтобы дополнительно стимулировать медленное мышление, мы вводим метод Forced Rethinking, который добавляет текстовый триггер для переосмысления в конце начальных этапов обучения с подкреплением, явно принуждая модель к шагу саморефлексии. Комбинируя эти две техники, наша модель VL-Rethinker достигает новых рекордных показателей на тестах MathVista, MathVerse и MathVision, составляющих 80,3%, 61,8% и 43,9% соответственно. VL-Rethinker также устанавливает новый рекорд среди открытых моделей на междисциплинарных тестах, таких как MMMU-Pro, EMMA и MEGA-Bench, сокращая разрыв с GPT-o1.
English
Recently, slow-thinking systems like GPT-o1 and DeepSeek-R1 have demonstrated great potential in solving challenging problems through explicit reflection. They significantly outperform the best fast-thinking models, such as GPT-4o, on various math and science benchmarks. However, their multimodal reasoning capabilities remain on par with fast-thinking models. For instance, GPT-o1's performance on benchmarks like MathVista, MathVerse, and MathVision is similar to fast-thinking models. In this paper, we aim to enhance the slow-thinking capabilities of vision-language models using reinforcement learning (without relying on distillation) to advance the state of the art. First, we adapt the GRPO algorithm with a novel technique called Selective Sample Replay (SSR) to address the vanishing advantages problem. While this approach yields strong performance, the resulting RL-trained models exhibit limited self-reflection or self-verification. To further encourage slow-thinking, we introduce Forced Rethinking, which appends a textual rethinking trigger to the end of initial rollouts in RL training, explicitly enforcing a self-reflection reasoning step. By combining these two techniques, our model, VL-Rethinker, advances state-of-the-art scores on MathVista, MathVerse, and MathVision to achieve 80.3%, 61.8%, and 43.9% respectively. VL-Rethinker also achieves open-source SoTA on multi-disciplinary benchmarks such as MMMU-Pro, EMMA, and MEGA-Bench, narrowing the gap with GPT-o1.

Summary

AI-Generated Summary

PDF422April 15, 2025