ChatPaper.aiChatPaper

Guarda Ancora, Pensa Lentamente: Migliorare la Riflessione Visiva nei Modelli Visione-Linguaggio

Look Again, Think Slowly: Enhancing Visual Reflection in Vision-Language Models

September 15, 2025
Autori: Pu Jian, Junhong Wu, Wei Sun, Chen Wang, Shuo Ren, Jiajun Zhang
cs.AI

Abstract

I recenti progressi nel ragionamento "a pensiero lento" basato esclusivamente sul testo hanno stimolato sforzi per trasferire questa capacità ai modelli visione-linguaggio (VLMs), al fine di addestrare modelli di ragionamento visivo (VRMs). Tuttavia, tale trasferimento affronta sfide critiche: un efficace "pensiero lento" nei VRMs richiede una riflessione visiva, ovvero la capacità di verificare il processo di ragionamento basandosi sulle informazioni visive. Attraverso un'analisi quantitativa, osserviamo che gli attuali VRMs mostrano una riflessione visiva limitata, poiché la loro attenzione alle informazioni visive diminuisce rapidamente con risposte generate più lunghe. Per affrontare questa sfida, proponiamo un nuovo VRM, Reflection-V, che migliora la riflessione visiva basandosi sulla costruzione di dati di ragionamento per l'avvio a freddo e sul design di ricompense per l'apprendimento per rinforzo (RL). In primo luogo, costruiamo dati di ragionamento centrati sulla visione sfruttando un agente che interagisce tra VLMs e modelli di ragionamento LLMs, consentendo l'apprendimento a freddo di schemi di riflessione visiva. In secondo luogo, durante l'RL viene impiegato un modello di ricompensa basato sull'attenzione visiva per incoraggiare il ragionamento basato sulle informazioni visive. Di conseguenza, Reflection-V dimostra miglioramenti significativi in molteplici benchmark di ragionamento visivo. Inoltre, Reflection-V mantiene una dipendenza più forte e coerente dalle informazioni visive durante il ragionamento visivo, indicando un potenziamento efficace delle capacità di riflessione visiva.
English
Recent advances in text-only "slow-thinking" reasoning have prompted efforts to transfer this capability to vision-language models (VLMs), for training visual reasoning models (VRMs). owever, such transfer faces critical challenges: Effective "slow thinking" in VRMs requires visual reflection, the ability to check the reasoning process based on visual information. Through quantitative analysis, we observe that current VRMs exhibit limited visual reflection, as their attention to visual information diminishes rapidly with longer generated responses. To address this challenge, we propose a new VRM Reflection-V, which enhances visual reflection based on reasoning data construction for cold-start and reward design for reinforcement learning (RL). Firstly, we construct vision-centered reasoning data by leveraging an agent that interacts between VLMs and reasoning LLMs, enabling cold-start learning of visual reflection patterns. Secondly, a visual attention based reward model is employed during RL to encourage reasoning based on visual information. Therefore, Reflection-V demonstrates significant improvements across multiple visual reasoning benchmarks. Furthermore, Reflection-V maintains a stronger and more consistent reliance on visual information during visual reasoning, indicating effective enhancement in visual reflection capabilities.
PDF31September 16, 2025