Совершенствование распознавания текста в сценах, ориентированного на художественный текст: наборы данных и методы

Аннотация

WordArt (художественный текст) характеризуется высокой степенью настройки шрифтов, текстур и компоновок, что делает распознавание текста на сцене, ориентированное на WordArt (WATER), значительно более сложной задачей, чем общее распознавание текста на сцене (STR). Существующие наборы данных и методы STR, как правило, построенные на основе обычного текста на сцене и входных данных с фиксированным шаблоном, с трудом масштабируются для решения задачи WATER. Таким образом, мы стремимся продвинуть эту задачу как с точки зрения данных, так и с точки зрения модели. Со стороны данных мы создаем синтетический набор данных объемом 2M, WATER-S, масштаб которого увеличен в сотни раз по сравнению с существующими данными художественного текста. WATER-S состоит из двух взаимодополняющих поднаборов. Первый генерируется с помощью модернизированного конвейера рендеринга (SynthWordArt), который обеспечивает высокоточные и контролируемые синтетические данные WordArt. Второй создается путем комбинирования Qwen3-VL для поиска подсказок (prompt mining) и Z-Image для синтеза изображений, что улучшает охват реалистичными и разнообразными данными. Со стороны модели мы предлагаем WATERec. Он использует визуальный кодировщик, поддерживающий ввод произвольной формы, и авторегрессионный декодер для моделирования сложных компоновок, что структурно преодолевает узкое место фиксированного шаблона STR при работе с WordArt. Эксперименты показывают, что такая архитектура превосходит предыдущие методы STR, достигая самых современных результатов на нерегулярных текстах, таких как WordArt. Вместе с WATER-R, тщательно реорганизованным на основе существующих реальных данных STR, наша сильная базовая линия с новыми синтетическими данными и дизайном модели достигает точности 90,40% на WordArt-Bench, значительно превосходя универсальные и специализированные для OCR модели зрения-языка. Код и данные доступны по адресу https://github.com/YesianRohn/WATER.

English

WordArt (artistic text) features highly customized fonts, textures, and layouts, making WordArt-oriented scene TExt Recognition (WATER) substantially more challenging than general Scene Text Recognition (STR). Existing STR datasets and methods, typically built around regular scene text and fixed-template inputs, struggle to scale to WATER. Thus, we aim to advance this task from both data and model perspectives. On the data side, we construct a 2M synthetic dataset, WATER-S, with the scale improved by hundreds of times compared to existing artistic text data. WATER-S consists of two complementary subsets. One rendered by an upgraded rendering pipeline (SynthWordArt), which provides highly accurate and controllable synthetic WordArt data. The other is generated by combining Qwen3-VL for prompt mining and Z-Image for image synthesis, which improves the coverage of realistic and diverse data. On the model side, we propose WATERec. It adopts an visual encoder supporting arbitrary-shaped inputs and an autoregressive decoder to model complex layouts, structurally breaking the bottleneck of fixed-template STR on WordArt. Experiments show that this architecture outperforms prior STR methods, achieving state-of-the-art performance on irregular texts such as WordArt. Together with WATER-R, carefully reorganized from existing real STR data, our strong baseline with the new synthetic data and model design reaches 90.40% accuracy on WordArt-Bench, surpassing both general-purpose and OCR-specialized vision-language models by a large margin. Code and data are available at https://github.com/YesianRohn/WATER.