Perzeptuelles Flussnetzwerk für visuell fundiertes Schließen

Zusammenfassung

Trotz der Erfolge von Large-Vision Language Models (LVLMs) versagen allgemeine Optimierungsziele (z.B. Standard-MLE) dabei, visuelle Trajektorien einzuschränken, was zu Sprachverzerrungen und Halluzinationen führt. Um dies zu mildern, führen aktuelle Methoden geometrische Priors von visuellen Experten als zusätzliche Supervision ein. Wir beobachten jedoch, dass eine solche Supervision typischerweise suboptimal ist: sie ist zugunsten geometrischer Präzision verzerrt und bietet nur begrenzte Reasoning-Nützlichkeit. Um diese Lücke zu schließen, schlagen wir das Perceptual Flow Network (PFlowNet) vor, das auf eine starre Ausrichtung an den Experten-Priors verzichtet und dennoch interpretierbares und effektiveres visuelles Reasoning erreicht. Konkret entkoppelt PFlowNet die Wahrnehmung vom Reasoning, um einen selbst-bedingten Generierungsprozess zu etablieren. Darauf aufbauend integriert es mehrdimensionale Rewards mit vicinal geometric shaping durch variationsbasiertes Reinforcement Learning, wodurch reasoning-orientierte Wahrnehmungsverhalten gefördert werden, während gleichzeitig die visuelle Zuverlässigkeit erhalten bleibt. PFlowNet liefert eine beweisbare Leistungsgarantie und wettbewerbsfähige empirische Ergebnisse, wobei es insbesondere neue SOTA-Rekorde auf V* Bench (90,6 %) und MME-RealWorld-lite (67,0 %) aufstellt.

English

Despite the success of Large-Vision Language Models (LVLMs), general optimization objectives (e.g., standard MLE) fail to constrain visual trajectories, leading to language bias and hallucination. To mitigate this, current methods introduce geometric priors from visual experts as additional supervision. However, we observe that such supervision is typically suboptimal: it is biased toward geometric precision and offers limited reasoning utility. To bridge this gap, we propose Perceptual Flow Network (PFlowNet), which eschews rigid alignment with the expert priors and achieves interpretable yet more effective visual reasoning. Specifically, PFlowNet decouples perception from reasoning to establish a self-conditioned generation process. Based on this, it integrates multi-dimensional rewards with vicinal geometric shaping via variational reinforcement learning, thereby facilitating reasoning-oriented perceptual behaviors while preserving visual reliability. PFlowNet delivers a provable performance guarantee and competitive empirical results, particularly setting new SOTA records on V* Bench (90.6%) and MME-RealWorld-lite (67.0%).

Perzeptuelles Flussnetzwerk für visuell fundiertes Schließen

Perceptual Flow Network for Visually Grounded Reasoning

Zusammenfassung

Support