ChatPaper.aiChatPaper

Kijk opnieuw, denk langzaam: Verbetering van visuele reflectie in visie-taalmodellen

Look Again, Think Slowly: Enhancing Visual Reflection in Vision-Language Models

September 15, 2025
Auteurs: Pu Jian, Junhong Wu, Wei Sun, Chen Wang, Shuo Ren, Jiajun Zhang
cs.AI

Samenvatting

Recente vooruitgang in tekstgebaseerd "langzaam-denken" redeneren heeft inspanningen gestimuleerd om deze capaciteit over te dragen naar visueel-taalmodelen (VLMs), voor het trainen van visuele redeneermodellen (VRMs). Echter, een dergelijke overdracht stuit op kritieke uitdagingen: Effectief "langzaam denken" in VRMs vereist visuele reflectie, het vermogen om het redeneerproces te controleren op basis van visuele informatie. Door kwantitatieve analyse observeren we dat huidige VRMs beperkte visuele reflectie vertonen, aangezien hun aandacht voor visuele informatie snel afneemt bij langere gegenereerde reacties. Om deze uitdaging aan te pakken, stellen we een nieuw VRM voor, Reflection-V, dat visuele reflectie verbetert op basis van redeneerdata-constructie voor cold-start en beloningsontwerp voor reinforcement learning (RL). Ten eerste construeren we visie-gecentreerde redeneerdata door gebruik te maken van een agent die interacteert tussen VLMs en redeneer-LLMs, waardoor cold-start leren van visuele reflectiepatronen mogelijk wordt. Ten tweede wordt tijdens RL een beloningsmodel gebaseerd op visuele aandacht ingezet om redeneren op basis van visuele informatie te stimuleren. Hierdoor toont Reflection-V significante verbeteringen op meerdere visuele redeneerbenchmarks. Bovendien behoudt Reflection-V een sterkere en consistentere afhankelijkheid van visuele informatie tijdens visueel redeneren, wat wijst op een effectieve verbetering van de visuele reflectiecapaciteiten.
English
Recent advances in text-only "slow-thinking" reasoning have prompted efforts to transfer this capability to vision-language models (VLMs), for training visual reasoning models (VRMs). owever, such transfer faces critical challenges: Effective "slow thinking" in VRMs requires visual reflection, the ability to check the reasoning process based on visual information. Through quantitative analysis, we observe that current VRMs exhibit limited visual reflection, as their attention to visual information diminishes rapidly with longer generated responses. To address this challenge, we propose a new VRM Reflection-V, which enhances visual reflection based on reasoning data construction for cold-start and reward design for reinforcement learning (RL). Firstly, we construct vision-centered reasoning data by leveraging an agent that interacts between VLMs and reasoning LLMs, enabling cold-start learning of visual reflection patterns. Secondly, a visual attention based reward model is employed during RL to encourage reasoning based on visual information. Therefore, Reflection-V demonstrates significant improvements across multiple visual reasoning benchmarks. Furthermore, Reflection-V maintains a stronger and more consistent reliance on visual information during visual reasoning, indicating effective enhancement in visual reflection capabilities.
PDF52September 16, 2025