OCR-Agent: Agentenbasierte Texterkennung mit Fähigkeits- und Gedächtnisreflexion

Zusammenfassung

Große visuell-sprachliche Modelle (VLMs) haben durch iterative Optimierungsmethoden ein erhebliches Potenzial für komplexe Bildverständnisaufgaben gezeigt. Allerdings fehlen diesen Modellen im Allgemeinen effektive Selbstkorrekturmechanismen, was es ihnen erschwert, kognitive Verzerrungen eigenständig zu korrigieren. Infolgedessen geraten sie bei mehrfachen Überarbeitungen oft in repetitive und ineffektive Versuche und erreichen keine stabilen Verbesserungen der Antwortqualität. Um dieses Problem zu lösen, schlagen wir einen neuartigen iterativen Selbstkorrekturrahmen vor, der Modelle mit zwei Schlüsselfähigkeiten ausstattet: Fähigkeitsreflexion und Gedächtnisreflexion. Dieser Rahmen leitet das Modell an, zunächst Fehler zu diagnostizieren und einen Korrekturplan über Fähigkeitsreflexion zu generieren, dann Vergangenheitsversuche mittels Gedächtnisreflexion zu überprüfen, um Wiederholungen zu vermeiden und neue Lösungen zu erkunden, und schließlich die Antwort durch rigoroses Nachdenken zu optimieren. Experimente auf der anspruchsvollen OCRBench v2 Benchmark zeigen, dass OCR-Agent das aktuelle Open-Source-SOTA-Modell InternVL3-8B um +2,0 auf englischen und +1,2 auf chinesischen Teilmengen übertrifft und dabei state-of-the-art Ergebnisse im Bildverständnis (79,9) und Schlussfolgern (66,5) erzielt – selbst größere feinabgestimmte Modelle übertreffend. Unsere Methode zeigt, dass strukturierte, selbstbewusste Reflexion die Robustheit der Schlussfolgerung von VLMs ohne zusätzliches Training erheblich verbessern kann. Code: https://github.com/AIGeeksGroup/OCR-Agent.

English

Large Vision-Language Models (VLMs) have demonstrated significant potential on complex visual understanding tasks through iterative optimization methods.However, these models generally lack effective self-correction mechanisms, making it difficult for them to independently rectify cognitive biases. Consequently, during multi-turn revisions, they often fall into repetitive and ineffective attempts, failing to achieve stable improvements in answer quality.To address this issue, we propose a novel iterative self-correction framework that endows models with two key capabilities: Capability Reflection and Memory Reflection. This framework guides the model to first diagnose errors and generate a correction plan via Capability Reflection, then leverage Memory Reflection to review past attempts to avoid repetition and explore new solutions, and finally, optimize the answer through rigorous re-reasoning. Experiments on the challenging OCRBench v2 benchmark show that OCR-Agent outperforms the current open-source SOTA model InternVL3-8B by +2.0 on English and +1.2 on Chinese subsets, while achieving state-of-the-art results in Visual Understanding (79.9) and Reasoning (66.5) - surpassing even larger fine-tuned models. Our method demonstrates that structured, self-aware reflection can significantly enhance VLMs' reasoning robustness without additional training. Code: https://github.com/AIGeeksGroup/OCR-Agent.

OCR-Agent: Agentenbasierte Texterkennung mit Fähigkeits- und Gedächtnisreflexion

OCR-Agent: Agentic OCR with Capability and Memory Reflection

Zusammenfassung

Support