ChatPaper.aiChatPaper

OCRVerse: к комплексному распознаванию текста в сквозных визуально-языковых моделях

OCRVerse: Towards Holistic OCR in End-to-End Vision-Language Models

January 29, 2026
Авторы: Yufeng Zhong, Lei Chen, Xuanle Zhao, Wenkang Han, Liming Zheng, Jing Huang, Deyang Jiang, Yilin Cao, Lin Ma, Zhixiong Zeng
cs.AI

Аннотация

Развитие больших визуально-языковых моделей стимулирует спрос на управление и применение огромных объемов мультимодальных данных, что делает технологию оптического распознавания символов (OCR), извлекающую информацию из визуальных изображений, все более популярной. Однако существующие методы OCR в основном сосредоточены на распознавании текстовых элементов из изображений или сканированных документов (тексто-ориентированное OCR), пренебрегая идентификацией визуальных элементов из визуально насыщенных источников изображений (визуально-ориентированное OCR), таких как диаграммы, веб-страницы и научные графики. В реальности эти визуально насыщенные изображения широко распространены в интернете и имеют значительную практическую ценность, например, для визуализации данных и анализа веб-страниц. В данном техническом отчете мы представляем OCRVerse — первый целостный метод OCR, работающий end-to-end, который обеспечивает унифицированное тексто-ориентированное и визуально-ориентированное распознавание. Для этого мы создали комплексную систему обработки данных, охватывающую широкий спектр тексто-ориентированных документов, таких как газеты, журналы и книги, а также визуально-ориентированных рендеренных композитов, включая диаграммы, веб-страницы и научные графики. Кроме того, мы предлагаем двухэтапный метод мультидоменного обучения SFT-RL для OCRVerse. SFT напрямую смешивает кросс-доменные данные для обучения и установления начальных доменных знаний, в то время как RL фокусируется на разработке персонализированных стратегий вознаграждения с учетом характеристик каждого домена. В частности, поскольку разные домены требуют различных форматов вывода и ожидаемых результатов, мы обеспечиваем достаточную гибкость на этапе RL для настройки адаптивных сигналов вознаграждения для каждого домена, тем самым улучшая кросс-доменное объединение и избегая конфликтов данных. Экспериментальные результаты демонстрируют эффективность OCRVerse, показывая конкурентоспособные результаты на тексто-ориентированных и визуально-ориентированных типах данных, сопоставимые даже с крупномасштабными открытыми и проприетарными моделями.
English
The development of large vision language models drives the demand for managing, and applying massive amounts of multimodal data, making OCR technology, which extracts information from visual images, increasingly popular. However, existing OCR methods primarily focus on recognizing text elements from images or scanned documents (Text-centric OCR), neglecting the identification of visual elements from visually information-dense image sources (Vision-centric OCR), such as charts, web pages and science plots. In reality, these visually information-dense images are widespread on the internet and have significant real-world application value, such as data visualization and web page analysis. In this technical report, we propose OCRVerse, the first holistic OCR method in end-to-end manner that enables unified text-centric OCR and vision-centric OCR. To this end, we constructe comprehensive data engineering to cover a wide range of text-centric documents, such as newspapers, magazines and books, as well as vision-centric rendered composites, including charts, web pages and scientific plots. Moreover, we propose a two-stage SFT-RL multi-domain training method for OCRVerse. SFT directly mixes cross-domain data to train and establish initial domain knowledge, while RL focuses on designing personalized reward strategies for the characteristics of each domain. Specifically, since different domains require various output formats and expected outputs, we provide sufficient flexibility in the RL stage to customize flexible reward signals for each domain, thereby improving cross-domain fusion and avoiding data conflicts. Experimental results demonstrate the effectiveness of OCRVerse, achieving competitive results across text-centric and vision-centric data types, even comparable to large-scale open-source and closed-source models.
PDF423January 31, 2026