ChatPaper.aiChatPaper

OpenVLThinker: Een vroege verkenning van complexe visueel-taalkundige redenering via iteratieve zelfverbetering

OpenVLThinker: An Early Exploration to Complex Vision-Language Reasoning via Iterative Self-Improvement

March 21, 2025
Auteurs: Yihe Deng, Hritik Bansal, Fan Yin, Nanyun Peng, Wei Wang, Kai-Wei Chang
cs.AI

Samenvatting

Recente vooruitgang aangetoond door DeepSeek-R1 heeft laten zien dat complexe redeneervaardigheden in grote taalmodelen (LLMs), waaronder geavanceerd gedrag zoals zelfverificatie en zelfcorrectie, kunnen worden bereikt door Reinforcement Learning (RL) met verifieerbare beloningen, wat de modelprestaties aanzienlijk verbetert op uitdagende taken zoals AIME. Gemotiveerd door deze bevindingen onderzoekt onze studie of vergelijkbare redeneervaardigheden succesvol kunnen worden geïntegreerd in grote visie-taalmodelen (LVLMs) en beoordeelt hun impact op uitdagende multimodale redeneertaken. We overwegen een aanpak die iteratief gebruikmaakt van supervised fine-tuning (SFT) op lichtgewicht trainingsdata en Reinforcement Learning (RL) om de modelgeneralisatie verder te verbeteren. In eerste instantie werden redeneervaardigheden gedistilleerd uit pure-tekst R1-modellen door redeneerstappen te genereren met behulp van hoogwaardige bijschriften van afbeeldingen afkomstig uit diverse visuele datasets. Vervolgens verbeterde iteratieve RL-training de redeneervaardigheden verder, waarbij het door RL verbeterde model van elke iteratie verfijnde SFT-datasets genereerde voor de volgende ronde. Dit iteratieve proces resulteerde in OpenVLThinker, een LVLM dat consistente verbeteringen in redeneerprestaties laat zien op uitdagende benchmarks zoals MathVista, MathVerse en MathVision, wat het potentieel van onze strategie voor robuuste visie-taalredenering aantoont. De code, het model en de data zijn beschikbaar op https://github.com/yihedeng9/OpenVLThinker.
English
Recent advancements demonstrated by DeepSeek-R1 have shown that complex reasoning abilities in large language models (LLMs), including sophisticated behaviors such as self-verification and self-correction, can be achieved by RL with verifiable rewards and significantly improves model performance on challenging tasks such as AIME. Motivated by these findings, our study investigates whether similar reasoning capabilities can be successfully integrated into large vision-language models (LVLMs) and assesses their impact on challenging multimodal reasoning tasks. We consider an approach that iteratively leverages supervised fine-tuning (SFT) on lightweight training data and Reinforcement Learning (RL) to further improve model generalization. Initially, reasoning capabilities were distilled from pure-text R1 models by generating reasoning steps using high-quality captions of the images sourced from diverse visual datasets. Subsequently, iterative RL training further enhance reasoning skills, with each iteration's RL-improved model generating refined SFT datasets for the next round. This iterative process yielded OpenVLThinker, a LVLM exhibiting consistently improved reasoning performance on challenging benchmarks such as MathVista, MathVerse, and MathVision, demonstrating the potential of our strategy for robust vision-language reasoning. The code, model and data are held at https://github.com/yihedeng9/OpenVLThinker.

Summary

AI-Generated Summary

PDF232March 24, 2025