Schau nochmal, denke langsam: Verbesserung der visuellen Reflexion in Vision-Sprache-Modellen
Look Again, Think Slowly: Enhancing Visual Reflection in Vision-Language Models
September 15, 2025
papers.authors: Pu Jian, Junhong Wu, Wei Sun, Chen Wang, Shuo Ren, Jiajun Zhang
cs.AI
papers.abstract
Jüngste Fortschritte im Bereich des textbasierten „langsamen Denkens“ („slow thinking“) haben Bemühungen angestoßen, diese Fähigkeit auf Vision-Language-Modelle (VLMs) zu übertragen, um visuelle Reasoning-Modelle (VRMs) zu trainieren. Eine solche Übertragung steht jedoch vor entscheidenden Herausforderungen: Effektives „langsames Denken“ in VRMs erfordert visuelle Reflexion, also die Fähigkeit, den Denkprozess anhand visueller Informationen zu überprüfen. Durch quantitative Analysen stellen wir fest, dass aktuelle VRMs nur begrenzte visuelle Reflexion aufweisen, da ihre Aufmerksamkeit für visuelle Informationen mit längeren generierten Antworten schnell abnimmt. Um diese Herausforderung zu bewältigen, schlagen wir ein neues VRM, Reflection-V, vor, das die visuelle Reflexion durch die Konstruktion von Reasoning-Daten für den Kaltstart und die Belohnungsgestaltung für Reinforcement Learning (RL) verbessert. Zunächst konstruieren wir visuell zentrierte Reasoning-Daten, indem wir einen Agenten nutzen, der zwischen VLMs und Reasoning-LLMs vermittelt, um das Erlernen von visuellen Reflexionsmustern im Kaltstart zu ermöglichen. Zweitens wird während des RL ein auf visueller Aufmerksamkeit basierendes Belohnungsmodell eingesetzt, um das Reasoning auf der Grundlage visueller Informationen zu fördern. Reflection-V zeigt daher signifikante Verbesserungen bei mehreren Benchmarks für visuelles Reasoning. Darüber hinaus weist Reflection-V eine stärkere und konsistentere Abhängigkeit von visuellen Informationen während des visuellen Reasonings auf, was auf eine effektive Steigerung der visuellen Reflexionsfähigkeiten hinweist.
English
Recent advances in text-only "slow-thinking" reasoning have prompted efforts
to transfer this capability to vision-language models (VLMs), for training
visual reasoning models (VRMs). owever, such transfer faces critical
challenges: Effective "slow thinking" in VRMs requires visual
reflection, the ability to check the reasoning process based on visual
information. Through quantitative analysis, we observe that current VRMs
exhibit limited visual reflection, as their attention to visual information
diminishes rapidly with longer generated responses. To address this challenge,
we propose a new VRM Reflection-V, which enhances visual reflection
based on reasoning data construction for cold-start and reward design for
reinforcement learning (RL). Firstly, we construct vision-centered reasoning
data by leveraging an agent that interacts between VLMs and reasoning LLMs,
enabling cold-start learning of visual reflection patterns. Secondly, a visual
attention based reward model is employed during RL to encourage reasoning based
on visual information. Therefore, Reflection-V demonstrates
significant improvements across multiple visual reasoning benchmarks.
Furthermore, Reflection-V maintains a stronger and more consistent
reliance on visual information during visual reasoning, indicating effective
enhancement in visual reflection capabilities.