CogFlow: Conectando Percepção e Raciocínio através da Internalização de Conhecimento para Resolução de Problemas Matemáticos Visuais

Resumo

Apesar dos progressos significativos, os modelos de linguagem multimodal continuam a enfrentar dificuldades na resolução de problemas matemáticos visuais. Alguns trabalhos recentes reconhecem que a percepção visual é um gargalo no raciocínio matemático visual, mas as suas soluções limitam-se a melhorar a extração e interpretação de inputs visuais. Notavelmente, todos ignoram a questão fundamental de saber se os indícios visuais extraídos são fielmente integrados e adequadamente utilizados no raciocínio subsequente. Motivados por esta lacuna, apresentamos o CogFlow, uma nova estrutura cognitiva inspirada em três fases que incorpora uma etapa de internalização de conhecimento, simulando explicitamente o fluxo hierárquico do raciocínio humano: percepção ⇒ internalização ⇒ raciocínio. Alinhados com este fluxo hierárquico, melhoramos holisticamente todas as suas etapas. Concebemos Recompensas Visuais Sinérgicas para impulsionar as capacidades de perceção nos espaços paramétrico e semântico, melhorando conjuntamente a extração de informação visual de símbolos e diagramas. Para garantir uma integração fiel dos indícios visuais extraídos no raciocínio subsequente, introduzimos um modelo de Recompensa de Internalização de Conhecimento na fase de internalização, estabelecendo uma ponte entre a perceção e o raciocínio. Além disso, projetamos um algoritmo de Otimização de Política com Porta Visual para reforçar que o raciocínio esteja ancorado no conhecimento visual, impedindo que os modelos procurem atalhos que resultem em cadeias de raciocínio aparentemente coerentes, mas visualmente infundadas. Adicionalmente, contribuímos com um novo conjunto de dados, o MathCog, para treino de modelos, que contém amostras com mais de 120 mil anotações de alta qualidade alinhadas com perceção-raciocínio. Experiências abrangentes e análises em benchmarks comuns de raciocínio matemático visual validam a superioridade do CogFlow proposto.

English

Despite significant progress, multimodal large language models continue to struggle with visual mathematical problem solving. Some recent works recognize that visual perception is a bottleneck in visual mathematical reasoning, but their solutions are limited to improving the extraction and interpretation of visual inputs. Notably, they all ignore the key issue of whether the extracted visual cues are faithfully integrated and properly utilized in subsequent reasoning. Motivated by this, we present CogFlow, a novel cognitive-inspired three-stage framework that incorporates a knowledge internalization stage, explicitly simulating the hierarchical flow of human reasoning: perceptionRightarrowinternalizationRightarrowreasoning. Inline with this hierarchical flow, we holistically enhance all its stages. We devise Synergistic Visual Rewards to boost perception capabilities in parametric and semantic spaces, jointly improving visual information extraction from symbols and diagrams. To guarantee faithful integration of extracted visual cues into subsequent reasoning, we introduce a Knowledge Internalization Reward model in the internalization stage, bridging perception and reasoning. Moreover, we design a Visual-Gated Policy Optimization algorithm to further enforce the reasoning is grounded with the visual knowledge, preventing models seeking shortcuts that appear coherent but are visually ungrounded reasoning chains. Moreover, we contribute a new dataset MathCog for model training, which contains samples with over 120K high-quality perception-reasoning aligned annotations. Comprehensive experiments and analysis on commonly used visual mathematical reasoning benchmarks validate the superiority of the proposed CogFlow.