Red de Flujo Perceptual para el Razonamiento Basado en lo Visual

Resumen

A pesar del éxito de los Modelos de Lenguaje y Visión a Gran Escala (LVLM), los objetivos de optimización generales (por ejemplo, la Máxima Verosimilitud estándar - MLE) no logran restringir las trayectorias visuales, lo que conduce a sesgos lingüísticos y alucinaciones. Para mitigar esto, los métodos actuales introducen priores geométricos de expertos visuales como supervisión adicional. Sin embargo, observamos que dicha supervisión es típicamente subóptima: está sesgada hacia la precisión geométrica y ofrece una utilidad de razonamiento limitada. Para salvar esta brecha, proponemos Perceptual Flow Network (PFlowNet), que evita la alineación rígida con los priores expertos y logra un razonamiento visual interpretable pero más efectivo. Específicamente, PFlowNet desacopla la percepción del razonamiento para establecer un proceso de generación auto-condicionado. Sobre esta base, integra recompensas multidimensionales con un modelado geométrico vicinal mediante aprendizaje por refuerzo variacional, facilitando así comportamientos perceptuales orientados al razonamiento mientras preserva la confiabilidad visual. PFlowNet ofrece una garantía de rendimiento demostrable y resultados empíricos competitivos, estableciendo en particular nuevos récords SOTA en V* Bench (90.6%) y MME-RealWorld-lite (67.0%).

English

Despite the success of Large-Vision Language Models (LVLMs), general optimization objectives (e.g., standard MLE) fail to constrain visual trajectories, leading to language bias and hallucination. To mitigate this, current methods introduce geometric priors from visual experts as additional supervision. However, we observe that such supervision is typically suboptimal: it is biased toward geometric precision and offers limited reasoning utility. To bridge this gap, we propose Perceptual Flow Network (PFlowNet), which eschews rigid alignment with the expert priors and achieves interpretable yet more effective visual reasoning. Specifically, PFlowNet decouples perception from reasoning to establish a self-conditioned generation process. Based on this, it integrates multi-dimensional rewards with vicinal geometric shaping via variational reinforcement learning, thereby facilitating reasoning-oriented perceptual behaviors while preserving visual reliability. PFlowNet delivers a provable performance guarantee and competitive empirical results, particularly setting new SOTA records on V* Bench (90.6%) and MME-RealWorld-lite (67.0%).

Red de Flujo Perceptual para el Razonamiento Basado en lo Visual

Perceptual Flow Network for Visually Grounded Reasoning

Resumen

Support