Regardez à nouveau, pensez lentement : Améliorer la réflexion visuelle dans les modèles vision-langage
Look Again, Think Slowly: Enhancing Visual Reflection in Vision-Language Models
September 15, 2025
papers.authors: Pu Jian, Junhong Wu, Wei Sun, Chen Wang, Shuo Ren, Jiajun Zhang
cs.AI
papers.abstract
Les récents progrès dans le raisonnement « à pensée lente » basé uniquement sur le texte ont motivé des efforts pour transférer cette capacité aux modèles vision-langage (VLMs), afin d’entraîner des modèles de raisonnement visuel (VRMs). Cependant, un tel transfert se heurte à des défis critiques : une « pensée lente » efficace dans les VRMs nécessite une réflexion visuelle, c’est-à-dire la capacité de vérifier le processus de raisonnement en s’appuyant sur des informations visuelles. À travers une analyse quantitative, nous observons que les VRMs actuels présentent une réflexion visuelle limitée, car leur attention aux informations visuelles diminue rapidement avec des réponses générées plus longues. Pour relever ce défi, nous proposons un nouveau modèle, Reflection-V, qui améliore la réflexion visuelle grâce à la construction de données de raisonnement pour l’apprentissage à froid et à la conception de récompenses pour l’apprentissage par renforcement (RL). Premièrement, nous construisons des données de raisonnement centrées sur la vision en exploitant un agent qui interagit entre les VLMs et les modèles de raisonnement LLMs, permettant un apprentissage à froid des schémas de réflexion visuelle. Deuxièmement, un modèle de récompense basé sur l’attention visuelle est utilisé pendant le RL pour encourager le raisonnement basé sur les informations visuelles. Ainsi, Reflection-V démontre des améliorations significatives sur plusieurs benchmarks de raisonnement visuel. De plus, Reflection-V maintient une dépendance plus forte et plus cohérente aux informations visuelles lors du raisonnement visuel, indiquant une amélioration effective des capacités de réflexion visuelle.
English
Recent advances in text-only "slow-thinking" reasoning have prompted efforts
to transfer this capability to vision-language models (VLMs), for training
visual reasoning models (VRMs). owever, such transfer faces critical
challenges: Effective "slow thinking" in VRMs requires visual
reflection, the ability to check the reasoning process based on visual
information. Through quantitative analysis, we observe that current VRMs
exhibit limited visual reflection, as their attention to visual information
diminishes rapidly with longer generated responses. To address this challenge,
we propose a new VRM Reflection-V, which enhances visual reflection
based on reasoning data construction for cold-start and reward design for
reinforcement learning (RL). Firstly, we construct vision-centered reasoning
data by leveraging an agent that interacts between VLMs and reasoning LLMs,
enabling cold-start learning of visual reflection patterns. Secondly, a visual
attention based reward model is employed during RL to encourage reasoning based
on visual information. Therefore, Reflection-V demonstrates
significant improvements across multiple visual reasoning benchmarks.
Furthermore, Reflection-V maintains a stronger and more consistent
reliance on visual information during visual reasoning, indicating effective
enhancement in visual reflection capabilities.