ChatPaper.aiChatPaper

Olhe Novamente, Pense Devagar: Aprimorando a Reflexão Visual em Modelos de Visão e Linguagem

Look Again, Think Slowly: Enhancing Visual Reflection in Vision-Language Models

September 15, 2025
Autores: Pu Jian, Junhong Wu, Wei Sun, Chen Wang, Shuo Ren, Jiajun Zhang
cs.AI

Resumo

Os recentes avanços no raciocínio de "pensamento lento" baseado apenas em texto têm impulsionado esforços para transferir essa capacidade para modelos de linguagem-visão (VLMs), visando treinar modelos de raciocínio visual (VRMs). No entanto, essa transferência enfrenta desafios críticos: o "pensamento lento" eficaz em VRMs requer reflexão visual, a capacidade de verificar o processo de raciocínio com base em informações visuais. Através de análises quantitativas, observamos que os VRMs atuais exibem reflexão visual limitada, pois sua atenção às informações visuais diminui rapidamente com respostas geradas mais longas. Para enfrentar esse desafio, propomos um novo VRM, o Reflection-V, que aprimora a reflexão visual com base na construção de dados de raciocínio para o aprendizado inicial (cold-start) e no design de recompensas para o aprendizado por reforço (RL). Primeiramente, construímos dados de raciocínio centrados na visão utilizando um agente que interage entre VLMs e modelos de linguagem de raciocínio (LLMs), permitindo o aprendizado inicial de padrões de reflexão visual. Em segundo lugar, um modelo de recompensa baseado em atenção visual é empregado durante o RL para incentivar o raciocínio com base em informações visuais. Como resultado, o Reflection-V demonstra melhorias significativas em diversos benchmarks de raciocínio visual. Além disso, o Reflection-V mantém uma dependência mais forte e consistente nas informações visuais durante o raciocínio visual, indicando um aprimoramento eficaz nas capacidades de reflexão visual.
English
Recent advances in text-only "slow-thinking" reasoning have prompted efforts to transfer this capability to vision-language models (VLMs), for training visual reasoning models (VRMs). owever, such transfer faces critical challenges: Effective "slow thinking" in VRMs requires visual reflection, the ability to check the reasoning process based on visual information. Through quantitative analysis, we observe that current VRMs exhibit limited visual reflection, as their attention to visual information diminishes rapidly with longer generated responses. To address this challenge, we propose a new VRM Reflection-V, which enhances visual reflection based on reasoning data construction for cold-start and reward design for reinforcement learning (RL). Firstly, we construct vision-centered reasoning data by leveraging an agent that interacts between VLMs and reasoning LLMs, enabling cold-start learning of visual reflection patterns. Secondly, a visual attention based reward model is employed during RL to encourage reasoning based on visual information. Therefore, Reflection-V demonstrates significant improvements across multiple visual reasoning benchmarks. Furthermore, Reflection-V maintains a stronger and more consistent reliance on visual information during visual reasoning, indicating effective enhancement in visual reflection capabilities.
PDF52September 16, 2025