Взгляни снова, подумай не спеша: улучшение визуальной рефлексии в моделях "зрение-язык"
Look Again, Think Slowly: Enhancing Visual Reflection in Vision-Language Models
September 15, 2025
Авторы: Pu Jian, Junhong Wu, Wei Sun, Chen Wang, Shuo Ren, Jiajun Zhang
cs.AI
Аннотация
Недавние достижения в области "медленного мышления" на основе текста стимулировали попытки перенести эту способность на модели, работающие с визуальными и языковыми данными (VLMs), для обучения моделей визуального мышления (VRMs). Однако такой перенос сталкивается с серьёзными трудностями: эффективное "медленное мышление" в VRMs требует визуальной рефлексии — способности проверять процесс рассуждений на основе визуальной информации. С помощью количественного анализа мы наблюдаем, что современные VRMs демонстрируют ограниченную визуальную рефлексию, так как их внимание к визуальной информации быстро снижается с увеличением длины генерируемых ответов. Для решения этой проблемы мы предлагаем новую модель VRM Reflection-V, которая улучшает визуальную рефлексию за счёт построения данных для рассуждений на этапе "холодного старта" и разработки системы вознаграждений для обучения с подкреплением (RL). Во-первых, мы создаём данные для рассуждений с акцентом на визуальную информацию, используя агента, который взаимодействует между VLMs и моделями рассуждений (LLMs), что позволяет начать обучение паттернов визуальной рефлексии с нуля. Во-вторых, в процессе RL применяется модель вознаграждения, основанная на визуальном внимании, чтобы стимулировать рассуждения на основе визуальной информации. В результате Reflection-V демонстрирует значительные улучшения на множестве тестов визуального мышления. Более того, Reflection-V сохраняет более сильную и последовательную зависимость от визуальной информации в процессе визуального мышления, что указывает на эффективное улучшение способностей к визуальной рефлексии.
English
Recent advances in text-only "slow-thinking" reasoning have prompted efforts
to transfer this capability to vision-language models (VLMs), for training
visual reasoning models (VRMs). owever, such transfer faces critical
challenges: Effective "slow thinking" in VRMs requires visual
reflection, the ability to check the reasoning process based on visual
information. Through quantitative analysis, we observe that current VRMs
exhibit limited visual reflection, as their attention to visual information
diminishes rapidly with longer generated responses. To address this challenge,
we propose a new VRM Reflection-V, which enhances visual reflection
based on reasoning data construction for cold-start and reward design for
reinforcement learning (RL). Firstly, we construct vision-centered reasoning
data by leveraging an agent that interacts between VLMs and reasoning LLMs,
enabling cold-start learning of visual reflection patterns. Secondly, a visual
attention based reward model is employed during RL to encourage reasoning based
on visual information. Therefore, Reflection-V demonstrates
significant improvements across multiple visual reasoning benchmarks.
Furthermore, Reflection-V maintains a stronger and more consistent
reliance on visual information during visual reasoning, indicating effective
enhancement in visual reflection capabilities.