ChatPaper.aiChatPaper

OpenVLThinker: Первые шаги в сложном визуально-языковом рассуждении через итеративное самоусовершенствование

OpenVLThinker: An Early Exploration to Complex Vision-Language Reasoning via Iterative Self-Improvement

March 21, 2025
Авторы: Yihe Deng, Hritik Bansal, Fan Yin, Nanyun Peng, Wei Wang, Kai-Wei Chang
cs.AI

Аннотация

Недавние достижения, продемонстрированные моделью DeepSeek-R1, показали, что сложные способности к рассуждению в больших языковых моделях (LLM), включая такие сложные поведения, как самопроверка и самокоррекция, могут быть достигнуты с помощью обучения с подкреплением (RL) с верифицируемыми наградами, что значительно улучшает производительность модели на сложных задачах, таких как AIME. Вдохновленные этими результатами, наше исследование изучает, могут ли аналогичные способности к рассуждению быть успешно интегрированы в большие визуально-языковые модели (LVLM), и оценивает их влияние на сложные задачи мультимодального рассуждения. Мы рассматриваем подход, который итеративно использует контролируемую тонкую настройку (SFT) на легковесных данных обучения и обучение с подкреплением (RL) для дальнейшего улучшения обобщения модели. Изначально способности к рассуждению были извлечены из чисто текстовых моделей R1 путем генерации шагов рассуждения с использованием высококачественных описаний изображений, полученных из разнообразных визуальных наборов данных. Впоследствии итеративное обучение RL дополнительно улучшило навыки рассуждения, причем каждая итерация RL-улучшенной модели генерировала уточненные наборы данных SFT для следующего раунда. Этот итеративный процесс привел к созданию OpenVLThinker, LVLM, демонстрирующей стабильно улучшенную производительность на сложных тестах, таких как MathVista, MathVerse и MathVision, что подчеркивает потенциал нашей стратегии для надежного визуально-языкового рассуждения. Код, модель и данные доступны по адресу https://github.com/yihedeng9/OpenVLThinker.
English
Recent advancements demonstrated by DeepSeek-R1 have shown that complex reasoning abilities in large language models (LLMs), including sophisticated behaviors such as self-verification and self-correction, can be achieved by RL with verifiable rewards and significantly improves model performance on challenging tasks such as AIME. Motivated by these findings, our study investigates whether similar reasoning capabilities can be successfully integrated into large vision-language models (LVLMs) and assesses their impact on challenging multimodal reasoning tasks. We consider an approach that iteratively leverages supervised fine-tuning (SFT) on lightweight training data and Reinforcement Learning (RL) to further improve model generalization. Initially, reasoning capabilities were distilled from pure-text R1 models by generating reasoning steps using high-quality captions of the images sourced from diverse visual datasets. Subsequently, iterative RL training further enhance reasoning skills, with each iteration's RL-improved model generating refined SFT datasets for the next round. This iterative process yielded OpenVLThinker, a LVLM exhibiting consistently improved reasoning performance on challenging benchmarks such as MathVista, MathVerse, and MathVision, demonstrating the potential of our strategy for robust vision-language reasoning. The code, model and data are held at https://github.com/yihedeng9/OpenVLThinker.

Summary

AI-Generated Summary

PDF232March 24, 2025