OCR-Agent: OCR Agente com Capacidade e Reflexão de Memória

Resumo

Os Grandes Modelos de Visão e Linguagem (VLMs) têm demonstrado potencial significativo em tarefas complexas de compreensão visual por meio de métodos de otimização iterativa. No entanto, esses modelos geralmente carecem de mecanismos eficazes de autocorreção, dificultando a correção independente de vieses cognitivos. Consequentemente, durante revisões em múltiplas etapas, eles frequentemente caem em tentativas repetitivas e ineficazes, falhando em alcançar melhorias estáveis na qualidade das respostas. Para resolver esse problema, propomos uma nova estrutura de autocorreção iterativa que confere aos modelos duas capacidades principais: Reflexão de Capacidade e Reflexão de Memória. Essa estrutura orienta o modelo a primeiro diagnosticar erros e gerar um plano de correção via Reflexão de Capacidade, depois utilizar a Reflexão de Memória para revisar tentativas passadas a fim de evitar repetições e explorar novas soluções, e finalmente, otimizar a resposta por meio de um reraciocínio rigoroso. Experimentos no desafiador benchmark OCRBench v2 mostram que o OCR-Agent supera o atual modelo SOTA de código aberto InternVL3-8B em +2,0 no subconjunto em inglês e +1,2 no subconjunto em chinês, enquanto alcança resultados state-of-the-art em Compreensão Visual (79,9) e Raciocínio (66,5) - superando até mesmo modelos maiores com ajuste fino. Nosso método demonstra que a reflexão estruturada e autoconsciente pode melhorar significativamente a robustez do raciocínio dos VLMs sem treinamento adicional. Código: https://github.com/AIGeeksGroup/OCR-Agent.

English

Large Vision-Language Models (VLMs) have demonstrated significant potential on complex visual understanding tasks through iterative optimization methods.However, these models generally lack effective self-correction mechanisms, making it difficult for them to independently rectify cognitive biases. Consequently, during multi-turn revisions, they often fall into repetitive and ineffective attempts, failing to achieve stable improvements in answer quality.To address this issue, we propose a novel iterative self-correction framework that endows models with two key capabilities: Capability Reflection and Memory Reflection. This framework guides the model to first diagnose errors and generate a correction plan via Capability Reflection, then leverage Memory Reflection to review past attempts to avoid repetition and explore new solutions, and finally, optimize the answer through rigorous re-reasoning. Experiments on the challenging OCRBench v2 benchmark show that OCR-Agent outperforms the current open-source SOTA model InternVL3-8B by +2.0 on English and +1.2 on Chinese subsets, while achieving state-of-the-art results in Visual Understanding (79.9) and Reasoning (66.5) - surpassing even larger fine-tuned models. Our method demonstrates that structured, self-aware reflection can significantly enhance VLMs' reasoning robustness without additional training. Code: https://github.com/AIGeeksGroup/OCR-Agent.

OCR-Agent: OCR Agente com Capacidade e Reflexão de Memória

OCR-Agent: Agentic OCR with Capability and Memory Reflection

Resumo

Support