ChatPaper.aiChatPaper

CogFlow: Überbrückung von Wahrnehmung und Denken durch Wissensverinnerlichung für visuelles mathematisches Problemlösen

CogFlow: Bridging Perception and Reasoning through Knowledge Internalization for Visual Mathematical Problem Solving

January 5, 2026
papers.authors: Shuhang Chen, Yunqiu Xu, Junjie Xie, Aojun Lu, Tao Feng, Zeying Huang, Ning Zhang, Yi Sun, Yi Yang, Hangjie Yuan
cs.AI

papers.abstract

Trotz bedeutender Fortschritte haben multimodale große Sprachmodelle nach wie vor Schwierigkeiten mit der Lösung visueller mathematischer Probleme. Einige aktuelle Arbeiten erkennen, dass die visuelle Wahrnehmung ein Engpass beim visuellen mathematischen Denken ist, doch ihre Lösungsansätze beschränken sich darauf, die Extraktion und Interpretation visueller Eingaben zu verbessern. Bemerkenswerterweise ignorieren sie alle die Schlüsselfrage, ob die extrahierten visuellen Hinweise auch tatsächlich treu integiert und in der nachfolgenden Schlussfolgerung richtig genutzt werden. Ausgehend von dieser Beobachtung stellen wir CogFlow vor, ein neuartiges, kognitionsinspiriertes Drei-Stufen-Framework, das eine Wissensinternalisierungsstufe einfügt und damit explizit den hierarchischen Ablauf menschlichen Denkens simuliert: Wahrnehmung ⇒ Internaliserung ⇒ Schlussfolgerung. In Anlehnung an diesen hierarchischen Ablauf verbessern wir alle seine Stufen ganzheitlich. Wir entwickeln Synergistische Visuelle Belohnungen, um die Wahrnehmungsfähigkeiten im parametrischen und semantischen Raum zu steigern und so gleichzeitig die Extraktion visueller Informationen aus Symbolen und Diagrammen zu verbessern. Um eine treue Integration der extrahierten visuellen Hinweise in die nachfolgende Schlussfolgerung zu gewährleisten, führen wir in der Internaliserungsstufe ein Knowledge Internalization Reward-Modell ein, das eine Brücke zwischen Wahrnehmung und Schlussfolgerung schlägt. Darüber hinaus entwerfen wir einen Visual-Gated Policy Optimization-Algorithmus, um weiter zu erzwingen, dass die Schlussfolgerung auf dem visuellen Wissen basiert, und so zu verhindern, dass Modelle Abkürzungen suchen, die kohärent erscheinen, aber visuell unbegründete Schlussfolgerungsketten darstellen. Zudem tragen wir mit einem neuen Datensatz, MathCog, für das Modelltraining bei, der Proben mit über 120.000 hochwertigen, wahrnehmungs-schlussfolgerungs-abgestimmten Annotationen enthält. Umfassende Experimente und Analysen auf gängigen Benchmarks für visuelles mathematisches Denken bestätigen die Überlegenheit des vorgeschlagenen CogFlow.
English
Despite significant progress, multimodal large language models continue to struggle with visual mathematical problem solving. Some recent works recognize that visual perception is a bottleneck in visual mathematical reasoning, but their solutions are limited to improving the extraction and interpretation of visual inputs. Notably, they all ignore the key issue of whether the extracted visual cues are faithfully integrated and properly utilized in subsequent reasoning. Motivated by this, we present CogFlow, a novel cognitive-inspired three-stage framework that incorporates a knowledge internalization stage, explicitly simulating the hierarchical flow of human reasoning: perceptionRightarrowinternalizationRightarrowreasoning. Inline with this hierarchical flow, we holistically enhance all its stages. We devise Synergistic Visual Rewards to boost perception capabilities in parametric and semantic spaces, jointly improving visual information extraction from symbols and diagrams. To guarantee faithful integration of extracted visual cues into subsequent reasoning, we introduce a Knowledge Internalization Reward model in the internalization stage, bridging perception and reasoning. Moreover, we design a Visual-Gated Policy Optimization algorithm to further enforce the reasoning is grounded with the visual knowledge, preventing models seeking shortcuts that appear coherent but are visually ungrounded reasoning chains. Moreover, we contribute a new dataset MathCog for model training, which contains samples with over 120K high-quality perception-reasoning aligned annotations. Comprehensive experiments and analysis on commonly used visual mathematical reasoning benchmarks validate the superiority of the proposed CogFlow.
PDF162January 8, 2026