Vooruitgang in WordArt-georiënteerde scène-tekstherkenning: datasets en methoden

Samenvatting

WordArt (artistieke tekst) kenmerkt zich door zeer aangepaste lettertypen, texturen en lay-outs, waardoor WordArt-gerichte scènetekstherkenning (WATER) aanzienlijk uitdagender is dan algemene scènetekstherkenning (STR). Bestaande STR-datasets en -methoden, die doorgaans zijn gebouwd rond reguliere scènetekst en invoer met vaste sjablonen, kunnen moeilijk opschalen naar WATER. Daarom streven we ernaar deze taak te verbeteren vanuit zowel data- als modelperspectief. Aan de datakant construeren we een synthetische dataset van 2M, WATER-S, waarvan de schaal honderden keren groter is dan bestaande artistieke tekstgegevens. WATER-S bestaat uit twee complementaire subsets. Eén gerenderd door een verbeterde renderingpijplijn (SynthWordArt), die zeer nauwkeurige en controleerbare synthetische WordArt-gegevens levert. De andere wordt gegenereerd door Qwen3-VL te combineren voor promptmining en Z-Image voor beeldsynthese, wat de dekking van realistische en diverse gegevens verbetert. Aan de modelkant stellen we WATERec voor. Het maakt gebruik van een visuele encoder die invoer met willekeurige vormen ondersteunt en een autoregressieve decoder om complexe lay-outs te modelleren, waardoor structureel de bottleneck van vaste-sjabloon STR op WordArt wordt doorbroken. Experimenten tonen aan dat deze architectuur eerdere STR-methoden overtreft en state-of-the-art prestaties levert op onregelmatige teksten zoals WordArt. Samen met WATER-R, zorgvuldig gereorganiseerd uit bestaande echte STR-gegevens, bereikt onze sterke basislijn met de nieuwe synthetische gegevens en modelontwerp 90,40% nauwkeurigheid op WordArt-Bench, waarmee zowel algemene als OCR-gespecialiseerde visie-taalmodelen met een ruime marge worden overtroffen. Code en gegevens zijn beschikbaar op https://github.com/YesianRohn/WATER.

English

WordArt (artistic text) features highly customized fonts, textures, and layouts, making WordArt-oriented scene TExt Recognition (WATER) substantially more challenging than general Scene Text Recognition (STR). Existing STR datasets and methods, typically built around regular scene text and fixed-template inputs, struggle to scale to WATER. Thus, we aim to advance this task from both data and model perspectives. On the data side, we construct a 2M synthetic dataset, WATER-S, with the scale improved by hundreds of times compared to existing artistic text data. WATER-S consists of two complementary subsets. One rendered by an upgraded rendering pipeline (SynthWordArt), which provides highly accurate and controllable synthetic WordArt data. The other is generated by combining Qwen3-VL for prompt mining and Z-Image for image synthesis, which improves the coverage of realistic and diverse data. On the model side, we propose WATERec. It adopts an visual encoder supporting arbitrary-shaped inputs and an autoregressive decoder to model complex layouts, structurally breaking the bottleneck of fixed-template STR on WordArt. Experiments show that this architecture outperforms prior STR methods, achieving state-of-the-art performance on irregular texts such as WordArt. Together with WATER-R, carefully reorganized from existing real STR data, our strong baseline with the new synthetic data and model design reaches 90.40% accuracy on WordArt-Bench, surpassing both general-purpose and OCR-specialized vision-language models by a large margin. Code and data are available at https://github.com/YesianRohn/WATER.