CogFlow: Colmare il Divario tra Percezione e Ragionamento attraverso l'Internalizzazione della Conoscenza per la Risoluzione di Problemi Matematici Visivi

Abstract

Nonostante i significativi progressi, i modelli linguistici multimodali di grandi dimensioni continuano a mostrare difficoltà nella risoluzione visiva di problemi matematici. Alcuni lavori recenti riconoscono che la percezione visiva costituisce un collo di bottiglia nel ragionamento matematico visivo, ma le loro soluzioni si limitano a migliorare l'estrazione e l'interpretazione degli input visivi. In particolare, tutti trascurano la questione cruciale di whether gli indizi visivi estratti vengano fedelmente integrati e utilizzati correttamente nel ragionamento successivo. Spinti da questa osservazione, presentiamo CogFlow, un innovativo framework ispirato alla cognizione umana che articola il processo in tre fasi, incorporando uno stadio di internalizzazione della conoscenza per simulare esplicitamente il flusso gerarchico del ragionamento umano: percezione ⇒ internalizzazione ⇒ ragionamento. In linea con questo flusso gerarchico, potenziamo in modo olistico tutte le sue fasi. Progettiamo Ricompense Visive Sinergiche per potenziare le capacità percettive negli spazi parametrico e semantico, migliorando congiuntamente l'estrazione di informazioni visive da simboli e diagrammi. Per garantire l'integrazione fedele degli indizi visivi estratti nel ragionamento successivo, introduciamo un modello a Ricompensa per l'Internalizzazione della Conoscenza nella fase di internalizzazione, che funge da ponte tra percezione e ragionamento. Inoltre, progettiamo un algoritmo di Ottimizzazione della Politica Controllata dal Visivo per imporre ulteriormente che il ragionamento sia ancorato alla conoscenza visiva, prevenendo che i modelli cerchino scorciatoie costituite da catene di ragionamento apparentemente coerenti ma prive di fondamento visivo. Inoltre, contribuiamo con un nuovo dataset, MathCog, per l'addestramento dei modelli, che contiene campioni con oltre 120mila annotazioni di alta qualità allineate tra percezione e ragionamento. Esperimenti e analisi completi su benchmark comunemente utilizzati per il ragionamento matematico visivo convalidano la superiorità del CogFlow proposto.

English

Despite significant progress, multimodal large language models continue to struggle with visual mathematical problem solving. Some recent works recognize that visual perception is a bottleneck in visual mathematical reasoning, but their solutions are limited to improving the extraction and interpretation of visual inputs. Notably, they all ignore the key issue of whether the extracted visual cues are faithfully integrated and properly utilized in subsequent reasoning. Motivated by this, we present CogFlow, a novel cognitive-inspired three-stage framework that incorporates a knowledge internalization stage, explicitly simulating the hierarchical flow of human reasoning: perceptionRightarrowinternalizationRightarrowreasoning. Inline with this hierarchical flow, we holistically enhance all its stages. We devise Synergistic Visual Rewards to boost perception capabilities in parametric and semantic spaces, jointly improving visual information extraction from symbols and diagrams. To guarantee faithful integration of extracted visual cues into subsequent reasoning, we introduce a Knowledge Internalization Reward model in the internalization stage, bridging perception and reasoning. Moreover, we design a Visual-Gated Policy Optimization algorithm to further enforce the reasoning is grounded with the visual knowledge, preventing models seeking shortcuts that appear coherent but are visually ungrounded reasoning chains. Moreover, we contribute a new dataset MathCog for model training, which contains samples with over 120K high-quality perception-reasoning aligned annotations. Comprehensive experiments and analysis on commonly used visual mathematical reasoning benchmarks validate the superiority of the proposed CogFlow.

CogFlow: Colmare il Divario tra Percezione e Ragionamento attraverso l'Internalizzazione della Conoscenza per la Risoluzione di Problemi Matematici Visivi

CogFlow: Bridging Perception and Reasoning through Knowledge Internalization for Visual Mathematical Problem Solving

Abstract

Support