OpenVLThinker: Una exploración inicial del razonamiento complejo visión-lenguaje mediante mejora iterativa autónoma
OpenVLThinker: An Early Exploration to Complex Vision-Language Reasoning via Iterative Self-Improvement
March 21, 2025
Autores: Yihe Deng, Hritik Bansal, Fan Yin, Nanyun Peng, Wei Wang, Kai-Wei Chang
cs.AI
Resumen
Los avances recientes demostrados por DeepSeek-R1 han mostrado que las habilidades de razonamiento complejo en modelos de lenguaje de gran escala (LLMs), incluyendo comportamientos sofisticados como la autoverificación y la autocorrección, pueden lograrse mediante el aprendizaje por refuerzo (RL) con recompensas verificables, lo que mejora significativamente el rendimiento del modelo en tareas desafiantes como AIME. Motivados por estos hallazgos, nuestro estudio investiga si capacidades de razonamiento similares pueden integrarse exitosamente en modelos de visión y lenguaje de gran escala (LVLMs) y evalúa su impacto en tareas desafiantes de razonamiento multimodal. Consideramos un enfoque que aprovecha iterativamente el ajuste fino supervisado (SFT) en datos de entrenamiento livianos y el aprendizaje por refuerzo (RL) para mejorar aún más la generalización del modelo. Inicialmente, las capacidades de razonamiento se destilaron de los modelos R1 de texto puro generando pasos de razonamiento utilizando descripciones de alta calidad de las imágenes obtenidas de diversos conjuntos de datos visuales. Posteriormente, el entrenamiento iterativo con RL mejoró aún más las habilidades de razonamiento, con cada iteración del modelo mejorado por RL generando conjuntos de datos SFT refinados para la siguiente ronda. Este proceso iterativo dio lugar a OpenVLThinker, un LVLM que exhibe un rendimiento de razonamiento consistentemente mejorado en puntos de referencia desafiantes como MathVista, MathVerse y MathVision, demostrando el potencial de nuestra estrategia para un razonamiento robusto en visión y lenguaje. El código, el modelo y los datos se encuentran disponibles en https://github.com/yihedeng9/OpenVLThinker.
English
Recent advancements demonstrated by DeepSeek-R1 have shown that complex
reasoning abilities in large language models (LLMs), including sophisticated
behaviors such as self-verification and self-correction, can be achieved by RL
with verifiable rewards and significantly improves model performance on
challenging tasks such as AIME. Motivated by these findings, our study
investigates whether similar reasoning capabilities can be successfully
integrated into large vision-language models (LVLMs) and assesses their impact
on challenging multimodal reasoning tasks. We consider an approach that
iteratively leverages supervised fine-tuning (SFT) on lightweight training data
and Reinforcement Learning (RL) to further improve model generalization.
Initially, reasoning capabilities were distilled from pure-text R1 models by
generating reasoning steps using high-quality captions of the images sourced
from diverse visual datasets. Subsequently, iterative RL training further
enhance reasoning skills, with each iteration's RL-improved model generating
refined SFT datasets for the next round. This iterative process yielded
OpenVLThinker, a LVLM exhibiting consistently improved reasoning performance on
challenging benchmarks such as MathVista, MathVerse, and MathVision,
demonstrating the potential of our strategy for robust vision-language
reasoning. The code, model and data are held at
https://github.com/yihedeng9/OpenVLThinker.Summary
AI-Generated Summary