ChatPaper.aiChatPaper

A Desnudação Latente Produz Bons Tokenizadores Visuais

Latent Denoising Makes Good Visual Tokenizers

July 21, 2025
Autores: Jiawei Yang, Tianhong Li, Lijie Fan, Yonglong Tian, Yue Wang
cs.AI

Resumo

Apesar de seu papel fundamental, ainda não está claro quais propriedades poderiam tornar os tokenizadores visuais mais eficazes para modelagem generativa. Observamos que os modelos generativos modernos compartilham um objetivo de treinamento conceitualmente semelhante — reconstruir sinais limpos a partir de entradas corrompidas, como ruído gaussiano ou mascaramento — um processo que denominamos de desruído. Motivados por essa percepção, propomos alinhar diretamente os embeddings do tokenizador com o objetivo de desruído downstream, incentivando que os embeddings latentes sejam mais facilmente reconstruídos, mesmo quando fortemente corrompidos. Para alcançar isso, introduzimos o Tokenizador de Desruído Latente (l-DeTok), um tokenizador simples, porém eficaz, treinado para reconstruir imagens limpas a partir de embeddings latentes corrompidos por ruído interpolativo e mascaramento aleatório. Experimentos extensivos no ImageNet 256x256 demonstram que nosso tokenizador supera consistentemente os tokenizadores padrão em seis modelos generativos representativos. Nossas descobertas destacam o desruído como um princípio fundamental de design para o desenvolvimento de tokenizadores, e esperamos que isso possa motivar novas perspectivas para o design futuro de tokenizadores.
English
Despite their fundamental role, it remains unclear what properties could make visual tokenizers more effective for generative modeling. We observe that modern generative models share a conceptually similar training objective -- reconstructing clean signals from corrupted inputs such as Gaussian noise or masking -- a process we term denoising. Motivated by this insight, we propose aligning tokenizer embeddings directly with the downstream denoising objective, encouraging latent embeddings to be more easily reconstructed even when heavily corrupted. To achieve this, we introduce the Latent Denoising Tokenizer (l-DeTok), a simple yet effective tokenizer trained to reconstruct clean images from latent embeddings corrupted by interpolative noise and random masking. Extensive experiments on ImageNet 256x256 demonstrate that our tokenizer consistently outperforms standard tokenizers across six representative generative models. Our findings highlight denoising as a fundamental design principle for tokenizer development, and we hope it could motivate new perspectives for future tokenizer design.
PDF91July 22, 2025