ChatPaper.aiChatPaper

OCR-Agent:能力とメモリ反射を備えたエージェント型OCR

OCR-Agent: Agentic OCR with Capability and Memory Reflection

February 24, 2026
著者: Shimin Wen, Zeyu Zhang, Xingdou Bian, Hongjie Zhu, Lulu He, Layi Shama, Daji Ergu, Ying Cai
cs.AI

要旨

大規模視覚言語モデル(VLM)は、反復最適化手法を通じて複雑な視覚理解タスクにおいて大きな可能性を示している。しかし、これらのモデルには一般に効果的な自己修正メカニズムが欠如しており、認知バイアスを自律的に修正することが困難である。その結果、マルチターン修正プロセスにおいて、反復的で非効率な試行に陥りやすく、回答品質の安定的な向上が達成できないという課題がある。この問題に対処するため、我々は新しい反復的自己修正フレームワークを提案する。このフレームワークは、モデルに二つの重要な能力(能力リフレクションと記憶リフレクション)を付与する。まず能力リフレクションにより誤りを診断し修正計画を生成し、次に記憶リフレクションで過去の試行を振り返り重複を回避しながら新たな解決策を探索し、最終的に厳密な再推論を通じて回答を最適化する。難易度の高いOCRBench v2ベンチマークによる実験では、OCR-Agentが英語サブセットで+2.0、中国語サブセットで+1.2のスコア向上により現行オープンソースSOTAモデルであるInternVL3-8Bを上回り、視覚理解(79.9)と推論(66.5)の両分野でファインチューニングされた大規模モデルをも凌駕する最先端の結果を達成した。本手法は、構造化された自己認識的リフレクションが、追加の学習を必要とせずにVLMの推論ロバスト性を大幅に強化し得ることを実証している。コード:https://github.com/AIGeeksGroup/OCR-Agent。
English
Large Vision-Language Models (VLMs) have demonstrated significant potential on complex visual understanding tasks through iterative optimization methods.However, these models generally lack effective self-correction mechanisms, making it difficult for them to independently rectify cognitive biases. Consequently, during multi-turn revisions, they often fall into repetitive and ineffective attempts, failing to achieve stable improvements in answer quality.To address this issue, we propose a novel iterative self-correction framework that endows models with two key capabilities: Capability Reflection and Memory Reflection. This framework guides the model to first diagnose errors and generate a correction plan via Capability Reflection, then leverage Memory Reflection to review past attempts to avoid repetition and explore new solutions, and finally, optimize the answer through rigorous re-reasoning. Experiments on the challenging OCRBench v2 benchmark show that OCR-Agent outperforms the current open-source SOTA model InternVL3-8B by +2.0 on English and +1.2 on Chinese subsets, while achieving state-of-the-art results in Visual Understanding (79.9) and Reasoning (66.5) - surpassing even larger fine-tuned models. Our method demonstrates that structured, self-aware reflection can significantly enhance VLMs' reasoning robustness without additional training. Code: https://github.com/AIGeeksGroup/OCR-Agent.
PDF22March 28, 2026