ChatPaper.aiChatPaper

GlyphPrinter: 문자 정확 시각 텍스트 렌더링을 위한 영역 기반 직접 선호도 최적화

GlyphPrinter: Region-Grouped Direct Preference Optimization for Glyph-Accurate Visual Text Rendering

March 16, 2026
저자: Xincheng Shuai, Ziye Li, Henghui Ding, Dacheng Tao
cs.AI

초록

시각적 텍스트 렌더링을 위한 정확한 글리프 생성은 필수적이면서도 어려운 과제입니다. 기존 방법들은 일반적으로 대량의 고품질 장면 텍스트 이미지에 대한 학습을 통해 텍스트 렌더링 성능을 향상시키지만, 글리프 변형 범위의 제한적 coverage 과 과도한 스타일화로 인해 특히 복잡하거나 도메인 외 문자에서 글리프 정확도가 떨어지는 경우가 많습니다. 일부 방법은 강화 학습을 활용하여 이 문제를 완화하지만, 해당 보상 모델은 미세한 글리프 오류에 둔감한 텍스트 인식 시스템에 의존하므로 잘못된 글리프가 포함된 이미지도 높은 보상을 받을 수 있습니다. 직접 선호도 최적화(DPO)에서 영감을 받아, 우리는 명시적 보상 모델에 대한 의존성을 제거한 선호도 기반 텍스트 렌더링 방법인 GlyphPrinter를 제안합니다. 그러나 표준 DPO 목적 함수는 두 샘플 간의 전체적 선호도만을 모델링하므로, 글리프 오류가 일반적으로 특정 지역에서 발생하는 시각적 텍스트 렌더링에는 불충분합니다. 이 문제를 해결하기 위해 우리는 지역 수준의 글리프 선호도 주석이 포함된 GlyphCorrector 데이터셋을 구축하고, 주석이 달린 지역에 대해 샘플 간 및 샘플 내 선호도를 최적화하는 지역 기반 목적 함수인 Region-Grouped DPO(R-GDPO)를 제안하여 글리프 정확도를 크게 향상시킵니다. 더 나아가, 제어 가능한 글리프 정확도를 가진 최적 분포에서 샘플링하는 추론 전략인 Regional Reward Guidance를 도입합니다. 광범위한 실험을 통해 제안된 GlyphPrinter가 스타일화와 정밀도 사이의 유리한 균형을 유지하면서 글리프 정확도에 있어 기존 방법들을 능가함을 입증합니다.
English
Generating accurate glyphs for visual text rendering is essential yet challenging. Existing methods typically enhance text rendering by training on a large amount of high-quality scene text images, but the limited coverage of glyph variations and excessive stylization often compromise glyph accuracy, especially for complex or out-of-domain characters. Some methods leverage reinforcement learning to alleviate this issue, yet their reward models usually depend on text recognition systems that are insensitive to fine-grained glyph errors, so images with incorrect glyphs may still receive high rewards. Inspired by Direct Preference Optimization (DPO), we propose GlyphPrinter, a preference-based text rendering method that eliminates reliance on explicit reward models. However, the standard DPO objective only models overall preference between two samples, which is insufficient for visual text rendering where glyph errors typically occur in localized regions. To address this issue, we construct the GlyphCorrector dataset with region-level glyph preference annotations and propose Region-Grouped DPO (R-GDPO), a region-based objective that optimizes inter- and intra-sample preferences over annotated regions, substantially enhancing glyph accuracy. Furthermore, we introduce Regional Reward Guidance, an inference strategy that samples from an optimal distribution with controllable glyph accuracy. Extensive experiments demonstrate that the proposed GlyphPrinter outperforms existing methods in glyph accuracy while maintaining a favorable balance between stylization and precision.
PDF42March 18, 2026