TextPecker: Количественная оценка структурных аномалий для улучшения визуализации текста

Аннотация

Визуальное отображение текста (VTR) остается ключевой проблемой в генерации изображений по тексту, где даже передовые модели часто создают текст со структурными аномалиями, такими как искажения, размытость и смещения. Однако мы обнаружили, что ведущие MLLM и специализированные OCR-модели в значительной степени не способны воспринимать эти структурные аномалии, создавая критическое узкое место как для оценки VTR, так и для RL-оптимизации. В результате даже современные генераторы (например, SeedDream4.0, Qwen-Image) по-прежнему испытывают трудности с воспроизведением структурно точного текста. Для решения этой проблемы мы предлагаем TextPecker — стратегию обучения с подкреплением (RL) с plug-and-play восприятием структурных аномалий, которая снижает уровень шума в reward-сигналах и работает с любым тексто-изобразительным генератором. Для реализации этой возможности мы создали набор данных для распознавания с аннотациями структурных аномалий на уровне символов и разработали синтезирующий движок на основе редактирования штрихов для расширения охвата структурных ошибок. Эксперименты показывают, что TextPecker стабильно улучшает разнообразные тексто-изобразительные модели; даже на хорошо оптимизированном Qwen-Image он обеспечивает значительный средний прирост на 4% в структурной точности и на 8.7% в семантическом соответствии для отображения китайского текста, устанавливая новый state-of-the-art в высокоточной VTR. Наша работа заполняет пробел в оптимизации VTR, предоставляя фундаментальный шаг к надежному и структурно точному визуальному генератору текста.

English

Visual Text Rendering (VTR) remains a critical challenge in text-to-image generation, where even advanced models frequently produce text with structural anomalies such as distortion, blurriness, and misalignment. However, we find that leading MLLMs and specialist OCR models largely fail to perceive these structural anomalies, creating a critical bottleneck for both VTR evaluation and RL-based optimization. As a result, even state-of-the-art generators (e.g., SeedDream4.0, Qwen-Image) still struggle to render structurally faithful text. To address this, we propose TextPecker, a plug-and-play structural anomaly perceptive RL strategy that mitigates noisy reward signals and works with any textto-image generator. To enable this capability, we construct a recognition dataset with character-level structural-anomaly annotations and develop a stroke-editing synthesis engine to expand structural-error coverage. Experiments show that TextPecker consistently improves diverse text-to-image models; even on the well-optimized Qwen-Image, it significantly yields average gains of 4% in structural fidelity and 8.7% in semantic alignment for Chinese text rendering, establishing a new state-of-the-art in high-fidelity VTR. Our work fills a gap in VTR optimization, providing a foundational step towards reliable and structural faithful visual text generation.

TextPecker: Количественная оценка структурных аномалий для улучшения визуализации текста

TextPecker: Rewarding Structural Anomaly Quantification for Enhancing Visual Text Rendering

Аннотация

Support