TextPecker: Recompensando a Quantificação de Anomalias Estruturais para Aprimorar a Renderização Visual de Texto

Resumo

A Renderização Visual de Texto (VTR) continua a ser um desafio crítico na geração de imagens a partir de texto, onde mesmo modelos avançados produzem frequentemente texto com anomalias estruturais, como distorção, desfoque e desalinhamento. No entanto, verificamos que os principais MLLMs e modelos especializados de OCR falham amplamente em perceber estas anomalias estruturais, criando um gargalo crítico tanto para a avaliação de VTR como para a otimização baseada em RL. Consequentemente, mesmo os geradores de última geração (por exemplo, SeedDream4.0, Qwen-Image) ainda lutam para renderizar texto estruturalmente fiel. Para resolver isto, propomos o TextPecker, uma estratégia de RL plug-and-play, percetiva a anomalias estruturais, que mitiga sinais de recompensa ruidosos e funciona com qualquer gerador de texto para imagem. Para permitir esta capacidade, construímos um conjunto de dados de reconhecimento com anotações de anomalias estruturais a nível de caráter e desenvolvemos um motor de síntese por edição de traços para expandir a cobertura de erros estruturais. Experiências mostram que o TextPecker melhora consistentemente diversos modelos de texto para imagem; mesmo no já bem otimizado Qwen-Image, produz ganhos médios significativos de 4% na fidelidade estrutural e 8.7% no alinhamento semântico para a renderização de texto em chinês, estabelecendo um novo estado da arte em VTR de alta fidelidade. O nosso trabalho preenche uma lacuna na otimização de VTR, fornecendo um passo fundamental para uma geração visual de texto fiável e estruturalmente fiel.

English

Visual Text Rendering (VTR) remains a critical challenge in text-to-image generation, where even advanced models frequently produce text with structural anomalies such as distortion, blurriness, and misalignment. However, we find that leading MLLMs and specialist OCR models largely fail to perceive these structural anomalies, creating a critical bottleneck for both VTR evaluation and RL-based optimization. As a result, even state-of-the-art generators (e.g., SeedDream4.0, Qwen-Image) still struggle to render structurally faithful text. To address this, we propose TextPecker, a plug-and-play structural anomaly perceptive RL strategy that mitigates noisy reward signals and works with any textto-image generator. To enable this capability, we construct a recognition dataset with character-level structural-anomaly annotations and develop a stroke-editing synthesis engine to expand structural-error coverage. Experiments show that TextPecker consistently improves diverse text-to-image models; even on the well-optimized Qwen-Image, it significantly yields average gains of 4% in structural fidelity and 8.7% in semantic alignment for Chinese text rendering, establishing a new state-of-the-art in high-fidelity VTR. Our work fills a gap in VTR optimization, providing a foundational step towards reliable and structural faithful visual text generation.

TextPecker: Recompensando a Quantificação de Anomalias Estruturais para Aprimorar a Renderização Visual de Texto

TextPecker: Rewarding Structural Anomaly Quantification for Enhancing Visual Text Rendering

Resumo

Support