Réseau de flux perceptuel pour le raisonnement visuellement ancré

Résumé

Malgré le succès des modèles de vision et langage à grande échelle (LVLM), les objectifs d'optimisation généraux (par exemple, le maximum de vraisemblance standard) échouent à contraindre les trajectoires visuelles, conduisant à des biais linguistiques et des hallucinations. Pour y remédier, les méthodes actuelles introduisent des prérequis géométriques issus d'experts visuels comme supervision supplémentaire. Cependant, nous observons qu'une telle supervision est généralement sous-optimale : elle est biaisée en faveur de la précision géométrique et offre une utilité de raisonnement limitée. Pour combler cette lacune, nous proposons Perceptual Flow Network (PFlowNet), qui évite un alignement rigide avec les prérequis des experts et permet un raisonnement visuel à la fois interprétable et plus efficace. Concrètement, PFlowNet découple la perception du raisonnement pour établir un processus de génération auto-conditionné. Sur cette base, il intègre des récompenses multidimensionnelles avec un façonnage géométrique vicinal via un apprentissage par renforcement variationnel, facilitant ainsi des comportements perceptuels orientés raisonnement tout en préservant la fiabilité visuelle. PFlowNet offre une garantie de performance prouvable et des résultats empiriques compétitifs, établissant notamment de nouveaux records SOTA sur V* Bench (90,6 %) et MME-RealWorld-lite (67,0 %).

English

Despite the success of Large-Vision Language Models (LVLMs), general optimization objectives (e.g., standard MLE) fail to constrain visual trajectories, leading to language bias and hallucination. To mitigate this, current methods introduce geometric priors from visual experts as additional supervision. However, we observe that such supervision is typically suboptimal: it is biased toward geometric precision and offers limited reasoning utility. To bridge this gap, we propose Perceptual Flow Network (PFlowNet), which eschews rigid alignment with the expert priors and achieves interpretable yet more effective visual reasoning. Specifically, PFlowNet decouples perception from reasoning to establish a self-conditioned generation process. Based on this, it integrates multi-dimensional rewards with vicinal geometric shaping via variational reinforcement learning, thereby facilitating reasoning-oriented perceptual behaviors while preserving visual reliability. PFlowNet delivers a provable performance guarantee and competitive empirical results, particularly setting new SOTA records on V* Bench (90.6%) and MME-RealWorld-lite (67.0%).

Réseau de flux perceptuel pour le raisonnement visuellement ancré

Perceptual Flow Network for Visually Grounded Reasoning

Résumé

Support