Сетевая модель перцептивного потока для визуально обоснованного рассуждения

Аннотация

Несмотря на успехи крупных визуально-языковых моделей (LVLM), общие оптимизационные цели (например, стандартный MLE) не позволяют ограничить визуальные траектории, что приводит к языковому смещению и галлюцинациям. Для смягчения этой проблемы современные методы вводят геометрические априорные данные от визуальных экспертов в качестве дополнительного контроля. Однако мы наблюдаем, что такой контроль обычно субоптимален: он смещен в сторону геометрической точности и предлагает ограниченную полезность для рассуждений. Чтобы устранить этот разрыв, мы предлагаем Перцептивную потоковую сеть (PFlowNet), которая избегает жесткого выравнивания с экспертными априорными данными и обеспечивает интерпретируемые, но более эффективные визуальные рассуждения. В частности, PFlowNet разделяет восприятие и рассуждение, чтобы установить самокондиционированный процесс генерации. На этой основе она интегрирует многомерные вознаграждения с викарным геометрическим формированием посредством вариационного обучения с подкреплением, способствуя тем самым ориентированному на рассуждения перцептивному поведению при сохранении визуальной надежности. PFlowNet обеспечивает доказуемую гарантию производительности и конкурентоспособные эмпирические результаты, в частности устанавливая новые рекорды SOTA на V* Bench (90,6%) и MME-RealWorld-lite (67,0%).

English

Despite the success of Large-Vision Language Models (LVLMs), general optimization objectives (e.g., standard MLE) fail to constrain visual trajectories, leading to language bias and hallucination. To mitigate this, current methods introduce geometric priors from visual experts as additional supervision. However, we observe that such supervision is typically suboptimal: it is biased toward geometric precision and offers limited reasoning utility. To bridge this gap, we propose Perceptual Flow Network (PFlowNet), which eschews rigid alignment with the expert priors and achieves interpretable yet more effective visual reasoning. Specifically, PFlowNet decouples perception from reasoning to establish a self-conditioned generation process. Based on this, it integrates multi-dimensional rewards with vicinal geometric shaping via variational reinforcement learning, thereby facilitating reasoning-oriented perceptual behaviors while preserving visual reliability. PFlowNet delivers a provable performance guarantee and competitive empirical results, particularly setting new SOTA records on V* Bench (90.6%) and MME-RealWorld-lite (67.0%).

Сетевая модель перцептивного потока для визуально обоснованного рассуждения

Perceptual Flow Network for Visually Grounded Reasoning

Аннотация

Support