InsightTok : amélioration de la fidélité du texte et des visages dans la tokenisation discrète pour la génération d'images autorégressive

Résumé

Les textes et les visages comptent parmi les motifs les plus saillants sur le plan perceptif et les plus importants en pratique dans la génération visuelle, mais ils restent difficiles à traiter pour les générateurs autorégressifs fondés sur une tokenization discrète. Un goulet d'étranglement central est le tokenizer : un sous-échantillonnage et une quantification agressifs éliminent souvent les structures à grain fin nécessaires pour préserver les glyphes lisibles et les caractéristiques faciales distinctives. Nous attribuons cet écart au fait que les objectifs standards des tokenizers discrets sont faiblement alignés avec la lisibilité du texte et la fidélité des visages, car ces objectifs optimisent généralement une reconstruction générique tout en compressant uniformément un contenu diversifié. Pour y remédier, nous proposons InsightTok, un cadre simple mais efficace de tokenization visuelle discrète qui améliore la fidélité du texte et des visages grâce à des pertes perceptuelles localisées et conscientes du contenu. Avec un codebook compact de 16k et un taux de sous-échantillonnage de 16x, InsightTok surpasse nettement les tokenizers antérieurs dans la reconstruction de texte et de visage sans compromettre la qualité générale de reconstruction. Ces gains se transfèrent systématiquement à la génération d'images autorégressive dans InsightAR, produisant des images avec un texte plus clair et des détails faciaux plus fidèles. Globalement, nos résultats soulignent le potentiel d'une supervision spécialisée dans l'entraînement des tokenizers pour faire progresser la génération d'images discrètes.

English

Text and faces are among the most perceptually salient and practically important patterns in visual generation, yet they remain challenging for autoregressive generators built on discrete tokenization. A central bottleneck is the tokenizer: aggressive downsampling and quantization often discard the fine-grained structures needed to preserve readable glyphs and distinctive facial features. We attribute this gap to standard discrete-tokenizer objectives being weakly aligned with text legibility and facial fidelity, as these objectives typically optimize generic reconstruction while compressing diverse content uniformly. To address this, we propose InsightTok, a simple yet effective discrete visual tokenization framework that enhances text and face fidelity through localized, content-aware perceptual losses. With a compact 16k codebook and a 16x downsampling rate, InsightTok significantly outperforms prior tokenizers in text and face reconstruction without compromising general reconstruction quality. These gains consistently transfer to autoregressive image generation in InsightAR, producing images with clearer text and more faithful facial details. Overall, our results highlight the potential of specialized supervision in tokenizer training for advancing discrete image generation.