InsightTok: Verbetering van de tekst- en gezichtsgetrouwheid in discrete tokenisatie voor autoregressieve beeldgeneratie

Samenvatting

Tekst en gezichten behoren tot de meest perceptueel opvallende en praktisch belangrijke patronen in visuele generatie, maar ze blijven een uitdaging voor autoregressieve generatoren die zijn gebouwd op discrete tokenisatie. Een centrale bottleneck is de tokenizer: agressieve downsampling en kwantisatie gooien vaak de fijnmazige structuren weg die nodig zijn om leesbare glyphs en onderscheidende gezichtskenmerken te behouden. We schrijven deze kloof toe aan het feit dat standaard discrete-tokenizerdoelstellingen zwak zijn afgestemd op tekstleesbaarheid en gezichtsgetrouwheid, aangezien deze doelstellingen typisch generieke reconstructie optimaliseren terwijl ze diverse inhoud uniform comprimeren. Om dit aan te pakken, stellen we InsightTok voor, een eenvoudig maar effectief raamwerk voor discrete visuele tokenisatie dat de getrouwheid van tekst en gezichten verbetert door middel van gelokaliseerde, inhoudsbewuste perceptuele verliezen. Met een compact codeboek van 16k en een downsamplingfactor van 16x presteert InsightTok significant beter dan eerdere tokenizers in tekst- en gezichtsreconstructie zonder de algemene reconstructiekwaliteit in gevaar te brengen. Deze winsten worden consistent overgedragen naar autoregressieve beeldgeneratie in InsightAR, wat beelden oplevert met duidelijkere tekst en getrouwere gezichtsdetails. Over het geheel genomen benadrukken onze resultaten het potentieel van gespecialiseerde supervisie in tokenizer-training voor het bevorderen van discrete beeldgeneratie.

English

Text and faces are among the most perceptually salient and practically important patterns in visual generation, yet they remain challenging for autoregressive generators built on discrete tokenization. A central bottleneck is the tokenizer: aggressive downsampling and quantization often discard the fine-grained structures needed to preserve readable glyphs and distinctive facial features. We attribute this gap to standard discrete-tokenizer objectives being weakly aligned with text legibility and facial fidelity, as these objectives typically optimize generic reconstruction while compressing diverse content uniformly. To address this, we propose InsightTok, a simple yet effective discrete visual tokenization framework that enhances text and face fidelity through localized, content-aware perceptual losses. With a compact 16k codebook and a 16x downsampling rate, InsightTok significantly outperforms prior tokenizers in text and face reconstruction without compromising general reconstruction quality. These gains consistently transfer to autoregressive image generation in InsightAR, producing images with clearer text and more faithful facial details. Overall, our results highlight the potential of specialized supervision in tokenizer training for advancing discrete image generation.