OCR-Agent: Агентное оптическое распознавание символов с возможностью рефлексии и памятью

Аннотация

Крупные визуально-языковые модели (VLM) продемонстрировали значительный потенциал в решении сложных задач визуального понимания благодаря методам итеративной оптимизации. Однако этим моделям обычно не хватает эффективных механизмов самокоррекции, что затрудняет самостоятельное исправление когнитивных искажений. Как следствие, в процессе многократных пересмотров они часто зацикливаются на повторяющихся и неэффективных попытках, не достигая стабильного улучшения качества ответов. Для решения этой проблемы мы предлагаем новую структуру итеративной самокоррекции, наделяющую модель двумя ключевыми способностями: рефлексией возможностей и рефлексией памяти. Данная структура направляет модель сначала на диагностику ошибок и создание плана коррекции через рефлексию возможностей, затем на использование рефлексии памяти для анализа предыдущих попыток с целью избежания повторов и исследования новых решений, и наконец — на оптимизацию ответа путем тщательного повторного рассуждения. Эксперименты на сложном бенчмарке OCRBench v2 показывают, что OCR-Agent превосходит текущую открытую SOTA-модель InternVL3-8B на +2.0 для английского и +1.2 для китайского подмножеств, одновременно достигая наилучших результатов в визуальном понимании (79.9) и логическом выводе (66.5) — опережая даже более крупные дообученные модели. Наш метод демонстрирует, что структурированная рефлексия с самосознанием может значительно повысить устойчивость рассуждений VLM без дополнительного обучения. Код: https://github.com/AIGeeksGroup/OCR-Agent.

English

Large Vision-Language Models (VLMs) have demonstrated significant potential on complex visual understanding tasks through iterative optimization methods.However, these models generally lack effective self-correction mechanisms, making it difficult for them to independently rectify cognitive biases. Consequently, during multi-turn revisions, they often fall into repetitive and ineffective attempts, failing to achieve stable improvements in answer quality.To address this issue, we propose a novel iterative self-correction framework that endows models with two key capabilities: Capability Reflection and Memory Reflection. This framework guides the model to first diagnose errors and generate a correction plan via Capability Reflection, then leverage Memory Reflection to review past attempts to avoid repetition and explore new solutions, and finally, optimize the answer through rigorous re-reasoning. Experiments on the challenging OCRBench v2 benchmark show that OCR-Agent outperforms the current open-source SOTA model InternVL3-8B by +2.0 on English and +1.2 on Chinese subsets, while achieving state-of-the-art results in Visual Understanding (79.9) and Reasoning (66.5) - surpassing even larger fine-tuned models. Our method demonstrates that structured, self-aware reflection can significantly enhance VLMs' reasoning robustness without additional training. Code: https://github.com/AIGeeksGroup/OCR-Agent.

OCR-Agent: Агентное оптическое распознавание символов с возможностью рефлексии и памятью

OCR-Agent: Agentic OCR with Capability and Memory Reflection

Аннотация

Support