ChatPaper.aiChatPaper

OpenVLThinker: Uma Exploração Inicial do Raciocínio Complexo em Visão e Linguagem por meio de Autoaprimoramento Iterativo

OpenVLThinker: An Early Exploration to Complex Vision-Language Reasoning via Iterative Self-Improvement

March 21, 2025
Autores: Yihe Deng, Hritik Bansal, Fan Yin, Nanyun Peng, Wei Wang, Kai-Wei Chang
cs.AI

Resumo

Avanços recentes demonstrados pelo DeepSeek-R1 mostraram que habilidades de raciocínio complexo em modelos de linguagem de grande escala (LLMs), incluindo comportamentos sofisticados como auto-verificação e auto-correção, podem ser alcançados por meio de Aprendizado por Reforço (RL) com recompensas verificáveis, melhorando significativamente o desempenho do modelo em tarefas desafiadoras, como o AIME. Motivados por essas descobertas, nosso estudo investiga se capacidades de raciocínio semelhantes podem ser integradas com sucesso em modelos de visão e linguagem de grande escala (LVLMs) e avalia seu impacto em tarefas desafiadoras de raciocínio multimodal. Consideramos uma abordagem que utiliza iterativamente ajuste fino supervisionado (SFT) em dados de treinamento leves e Aprendizado por Reforço (RL) para melhorar ainda mais a generalização do modelo. Inicialmente, as capacidades de raciocínio foram destiladas de modelos R1 de texto puro, gerando etapas de raciocínio usando legendas de alta qualidade de imagens obtidas de diversos conjuntos de dados visuais. Posteriormente, o treinamento iterativo de RL aprimorou ainda mais as habilidades de raciocínio, com o modelo melhorado por RL em cada iteração gerando conjuntos de dados SFT refinados para a próxima rodada. Esse processo iterativo resultou no OpenVLThinker, um LVLM que exibe consistentemente um desempenho de raciocínio aprimorado em benchmarks desafiadores como MathVista, MathVerse e MathVision, demonstrando o potencial de nossa estratégia para um raciocínio robusto em visão e linguagem. O código, modelo e dados estão disponíveis em https://github.com/yihedeng9/OpenVLThinker.
English
Recent advancements demonstrated by DeepSeek-R1 have shown that complex reasoning abilities in large language models (LLMs), including sophisticated behaviors such as self-verification and self-correction, can be achieved by RL with verifiable rewards and significantly improves model performance on challenging tasks such as AIME. Motivated by these findings, our study investigates whether similar reasoning capabilities can be successfully integrated into large vision-language models (LVLMs) and assesses their impact on challenging multimodal reasoning tasks. We consider an approach that iteratively leverages supervised fine-tuning (SFT) on lightweight training data and Reinforcement Learning (RL) to further improve model generalization. Initially, reasoning capabilities were distilled from pure-text R1 models by generating reasoning steps using high-quality captions of the images sourced from diverse visual datasets. Subsequently, iterative RL training further enhance reasoning skills, with each iteration's RL-improved model generating refined SFT datasets for the next round. This iterative process yielded OpenVLThinker, a LVLM exhibiting consistently improved reasoning performance on challenging benchmarks such as MathVista, MathVerse, and MathVision, demonstrating the potential of our strategy for robust vision-language reasoning. The code, model and data are held at https://github.com/yihedeng9/OpenVLThinker.

Summary

AI-Generated Summary

PDF232March 24, 2025