OCR-Agent: 능력과 메모리 반영을 갖춘 에이전트 기반 OCR
OCR-Agent: Agentic OCR with Capability and Memory Reflection
February 24, 2026
저자: Shimin Wen, Zeyu Zhang, Xingdou Bian, Hongjie Zhu, Lulu He, Layi Shama, Daji Ergu, Ying Cai
cs.AI
초록
대규모 시각-언어 모델(VLM)은 반복적 최적화 방법을 통해 복잡한 시각 이해 과제에서 상당한 잠재력을 보여주고 있습니다. 그러나 이러한 모델들은 일반적으로 효과적인 자기 수정 메커니즘을 갖추지 못해 인지적 편향을 독립적으로 시정하기 어렵습니다. 그 결과, 다중 회차 수정 과정에서 모델은 반복적이고 비효율적인 시도에 머물며 답변 품질의 안정적인 향상을 이루지 못하는 경우가 많습니다. 이러한 문제를 해결하기 위해 우리는 모델에 두 가지 핵심 능력, 즉 능력 반성(Capability Reflection)과 기억 반성(Memory Reflection)을 부여하는 새로운 반복적 자기 수정 프레임워크를 제안합니다. 이 프레임워크는 모델이 먼저 능력 반성을 통해 오류를 진단하고 수정 계획을 생성하도록 안내한 후, 기억 반성을 활용하여 과거 시도를 검토하여 반복을 피하고 새로운 해결책을 탐색하며, 마지막으로 엄격한 재추론을 통해 답변을 최적화하도록 합니다. 도전적인 OCRBench v2 벤치마크에서의 실험 결과, OCR-Agent는 영어 부분집합에서 +2.0점, 중국어 부분집합에서 +1.2점으로 현재 오픈소스 SOTA 모델인 InternVL3-8B를 능가했으며, 시각 이해(79.9)와 추론(66.5) 영역에서 파인튜닝된 더 큰 모델들까지 넘어서는 최첨단 성능을 달성했습니다. 우리의 방법은 구조화되고 자의식적인 반성이 추가 학습 없이도 VLM의 추론 강건성을 크게 향상시킬 수 있음을 입증합니다. 코드: https://github.com/AIGeeksGroup/OCR-Agent.
English
Large Vision-Language Models (VLMs) have demonstrated significant potential on complex visual understanding tasks through iterative optimization methods.However, these models generally lack effective self-correction mechanisms, making it difficult for them to independently rectify cognitive biases. Consequently, during multi-turn revisions, they often fall into repetitive and ineffective attempts, failing to achieve stable improvements in answer quality.To address this issue, we propose a novel iterative self-correction framework that endows models with two key capabilities: Capability Reflection and Memory Reflection. This framework guides the model to first diagnose errors and generate a correction plan via Capability Reflection, then leverage Memory Reflection to review past attempts to avoid repetition and explore new solutions, and finally, optimize the answer through rigorous re-reasoning. Experiments on the challenging OCRBench v2 benchmark show that OCR-Agent outperforms the current open-source SOTA model InternVL3-8B by +2.0 on English and +1.2 on Chinese subsets, while achieving state-of-the-art results in Visual Understanding (79.9) and Reasoning (66.5) - surpassing even larger fine-tuned models. Our method demonstrates that structured, self-aware reflection can significantly enhance VLMs' reasoning robustness without additional training. Code: https://github.com/AIGeeksGroup/OCR-Agent.