OCR-Agent : OCR Agentique avec Capacité et Réflexion de Mémoire

Résumé

Les grands modèles de vision et langage (VLM) ont démontré un potentiel significatif pour les tâches complexes de compréhension visuelle grâce à des méthodes d'optimisation itératives. Cependant, ces modèles manquent généralement de mécanismes efficaces d'auto-correction, ce qui les empêche de rectifier indépendamment leurs biais cognitifs. Par conséquent, lors de révisions multi-tours, ils tombent souvent dans des tentatives répétitives et inefficaces, ne parvenant pas à réaliser des améliorations stables de la qualité des réponses. Pour résoudre ce problème, nous proposons un nouveau cadre d'auto-correction itératif dotant les modèles de deux capacités clés : la Réflexion sur les Capacités et la Réflexion sur la Mémoire. Ce cadre guide le modèle pour d'abord diagnostiquer les erreurs et générer un plan de correction via la Réflexion sur les Capacités, puis exploiter la Réflexion sur la Mémoire pour examiner les tentatives passées afin d'éviter la répétition et d'explorer de nouvelles solutions, et enfin, optimiser la réponse par un raisonnement rigoureux. Les expériences sur le benchmark exigeant OCRBench v2 montrent qu'OCR-Agent surpasse le modèle SOTA open-source actuel InternVL3-8B de +2,0 sur les sous-ensembles anglais et de +1,2 sur les sous-ensembles chinois, tout en obtenant des résultats state-of-the-art en Compréhension Visuelle (79,9) et Raisonnement (66,5) - dépassant même des modèles plus grands et fine-tunés. Notre méthode démontre qu'une réflexion structurée et consciente d'elle-même peut significativement améliorer la robustesse du raisonnement des VLM sans apprentissage supplémentaire. Code : https://github.com/AIGeeksGroup/OCR-Agent.

English

Large Vision-Language Models (VLMs) have demonstrated significant potential on complex visual understanding tasks through iterative optimization methods.However, these models generally lack effective self-correction mechanisms, making it difficult for them to independently rectify cognitive biases. Consequently, during multi-turn revisions, they often fall into repetitive and ineffective attempts, failing to achieve stable improvements in answer quality.To address this issue, we propose a novel iterative self-correction framework that endows models with two key capabilities: Capability Reflection and Memory Reflection. This framework guides the model to first diagnose errors and generate a correction plan via Capability Reflection, then leverage Memory Reflection to review past attempts to avoid repetition and explore new solutions, and finally, optimize the answer through rigorous re-reasoning. Experiments on the challenging OCRBench v2 benchmark show that OCR-Agent outperforms the current open-source SOTA model InternVL3-8B by +2.0 on English and +1.2 on Chinese subsets, while achieving state-of-the-art results in Visual Understanding (79.9) and Reasoning (66.5) - surpassing even larger fine-tuned models. Our method demonstrates that structured, self-aware reflection can significantly enhance VLMs' reasoning robustness without additional training. Code: https://github.com/AIGeeksGroup/OCR-Agent.

OCR-Agent : OCR Agentique avec Capacité et Réflexion de Mémoire

OCR-Agent: Agentic OCR with Capability and Memory Reflection

Résumé

Support