OCR-Agent: Agentische OCR met capaciteits- en geheugenreflectie

Samenvatting

Grootschalige Vision-Language Modellen (VLM's) hebben aanzienlijk potentieel getoond voor complexe visuele begripstaken door middel van iteratieve optimalisatiemethoden. Deze modellen missen echter over het algemeen effectieve zelfcorrectiemechanismen, waardoor het voor hen moeilijk is om cognitieve vertekeningen onafhankelijk te rectificeren. Bijgevolg vervallen ze tijdens meervoudige revisies vaak in repetitieve en inefficiënte pogingen, wat niet leidt tot stabiele verbeteringen in de antwoordkwaliteit. Om dit probleem aan te pakken, stellen we een nieuw iteratief zelfcorrectieraamwerk voor dat modellen twee cruciale capaciteiten verleent: Capaciteitsreflectie en Geheugenreflectie. Dit raamwerk leidt het model ertoe om eerst fouten te diagnosticeren en een correctieplan te genereren via Capaciteitsreflectie, vervolgens Geheugenreflectie te benutten om eerdere pogingen te evalueren om herhaling te voorkomen en nieuwe oplossingen te verkennen, en ten slotte het antwoord te optimaliseren door middel van rigoureus herredeneren. Experimenten op de uitdagende OCRBench v2-benchmark tonen aan dat OCR-Agent het huidige open-source SOTA-model InternVL3-8B overtreft met +2,0 punten op de Engelse en +1,2 punten op de Chinese subset, terwijl het state-of-the-art resultaten behaalt in Visueel Begrip (79,9) en Redeneren (66,5) - en daarmee zelfs grotere fijn afgestemde modellen overstijgt. Onze methode toont aan dat gestructureerde, zelfbewuste reflectie de redeneerrobuustheid van VLM's aanzienlijk kan verbeteren zonder aanvullende training. Code: https://github.com/AIGeeksGroup/OCR-Agent.

English

Large Vision-Language Models (VLMs) have demonstrated significant potential on complex visual understanding tasks through iterative optimization methods.However, these models generally lack effective self-correction mechanisms, making it difficult for them to independently rectify cognitive biases. Consequently, during multi-turn revisions, they often fall into repetitive and ineffective attempts, failing to achieve stable improvements in answer quality.To address this issue, we propose a novel iterative self-correction framework that endows models with two key capabilities: Capability Reflection and Memory Reflection. This framework guides the model to first diagnose errors and generate a correction plan via Capability Reflection, then leverage Memory Reflection to review past attempts to avoid repetition and explore new solutions, and finally, optimize the answer through rigorous re-reasoning. Experiments on the challenging OCRBench v2 benchmark show that OCR-Agent outperforms the current open-source SOTA model InternVL3-8B by +2.0 on English and +1.2 on Chinese subsets, while achieving state-of-the-art results in Visual Understanding (79.9) and Reasoning (66.5) - surpassing even larger fine-tuned models. Our method demonstrates that structured, self-aware reflection can significantly enhance VLMs' reasoning robustness without additional training. Code: https://github.com/AIGeeksGroup/OCR-Agent.

OCR-Agent: Agentische OCR met capaciteits- en geheugenreflectie

OCR-Agent: Agentic OCR with Capability and Memory Reflection

Samenvatting

Support