OCR-Agente: OCR Agéntico con Capacidad y Reflexión de Memoria

Resumen

Los Grandes Modelos de Visión y Lenguaje (VLMs) han demostrado un potencial significativo en tareas complejas de comprensión visual mediante métodos de optimización iterativa. Sin embargo, estos modelos generalmente carecen de mecanismos efectivos de autocorrección, lo que dificulta que rectifiquen de forma independiente los sesgos cognitivos. En consecuencia, durante revisiones multiturno, a menudo caen en intentos repetitivos e ineficaces, sin lograr mejoras estables en la calidad de las respuestas. Para abordar este problema, proponemos un novedoso marco de autocorrección iterativa que dota a los modelos con dos capacidades clave: Reflexión de Capacidad y Reflexión de Memoria. Este marco guía al modelo para que primero diagnostique errores y genere un plan de corrección mediante la Reflexión de Capacidad, luego aproveche la Reflexión de Memoria para revisar intentos pasados y evitar repeticiones mientras explora nuevas soluciones, y finalmente optimice la respuesta mediante un rerrazonamiento riguroso. Los experimentos en el complejo benchmark OCRBench v2 muestran que OCR-Agent supera al modelo SOTA de código abierto actual InternVL3-8B en +2.0 en el subconjunto inglés y +1.2 en el chino, logrando simultáneamente resultados state-of-the-art en Comprensión Visual (79.9) y Razonamiento (66.5), superando incluso a modelos fine-tuned más grandes. Nuestro método demuestra que la reflexión estructurada y autoconsciente puede mejorar significativamente la robustez del razonamiento de los VLMs sin entrenamiento adicional. Código: https://github.com/AIGeeksGroup/OCR-Agent.

English

Large Vision-Language Models (VLMs) have demonstrated significant potential on complex visual understanding tasks through iterative optimization methods.However, these models generally lack effective self-correction mechanisms, making it difficult for them to independently rectify cognitive biases. Consequently, during multi-turn revisions, they often fall into repetitive and ineffective attempts, failing to achieve stable improvements in answer quality.To address this issue, we propose a novel iterative self-correction framework that endows models with two key capabilities: Capability Reflection and Memory Reflection. This framework guides the model to first diagnose errors and generate a correction plan via Capability Reflection, then leverage Memory Reflection to review past attempts to avoid repetition and explore new solutions, and finally, optimize the answer through rigorous re-reasoning. Experiments on the challenging OCRBench v2 benchmark show that OCR-Agent outperforms the current open-source SOTA model InternVL3-8B by +2.0 on English and +1.2 on Chinese subsets, while achieving state-of-the-art results in Visual Understanding (79.9) and Reasoning (66.5) - surpassing even larger fine-tuned models. Our method demonstrates that structured, self-aware reflection can significantly enhance VLMs' reasoning robustness without additional training. Code: https://github.com/AIGeeksGroup/OCR-Agent.

OCR-Agente: OCR Agéntico con Capacidad y Reflexión de Memoria

OCR-Agent: Agentic OCR with Capability and Memory Reflection

Resumen

Support