ChatPaper.aiChatPaper

Le débruitage latent permet de créer de bons tokenizers visuels.

Latent Denoising Makes Good Visual Tokenizers

July 21, 2025
papers.authors: Jiawei Yang, Tianhong Li, Lijie Fan, Yonglong Tian, Yue Wang
cs.AI

papers.abstract

Malgré leur rôle fondamental, il reste incertain quelles propriétés pourraient rendre les tokenizers visuels plus efficaces pour la modélisation générative. Nous observons que les modèles génératifs modernes partagent un objectif d'entraînement conceptuellement similaire -- reconstruire des signaux propres à partir d'entrées corrompues telles que du bruit gaussien ou du masquage -- un processus que nous qualifions de débruitage. Motivés par cette observation, nous proposons d'aligner directement les embeddings du tokenizer avec l'objectif de débruitage en aval, encourageant les embeddings latents à être plus facilement reconstruits même lorsqu'ils sont fortement corrompus. Pour y parvenir, nous introduisons le Latent Denoising Tokenizer (l-DeTok), un tokenizer simple mais efficace entraîné à reconstruire des images propres à partir d'embeddings latents corrompus par du bruit interpolatif et un masquage aléatoire. Des expériences approfondies sur ImageNet 256x256 démontrent que notre tokenizer surpasse systématiquement les tokenizers standards à travers six modèles génératifs représentatifs. Nos résultats mettent en lumière le débruitage comme un principe de conception fondamental pour le développement de tokenizers, et nous espérons qu'il pourra inspirer de nouvelles perspectives pour la conception future de tokenizers.
English
Despite their fundamental role, it remains unclear what properties could make visual tokenizers more effective for generative modeling. We observe that modern generative models share a conceptually similar training objective -- reconstructing clean signals from corrupted inputs such as Gaussian noise or masking -- a process we term denoising. Motivated by this insight, we propose aligning tokenizer embeddings directly with the downstream denoising objective, encouraging latent embeddings to be more easily reconstructed even when heavily corrupted. To achieve this, we introduce the Latent Denoising Tokenizer (l-DeTok), a simple yet effective tokenizer trained to reconstruct clean images from latent embeddings corrupted by interpolative noise and random masking. Extensive experiments on ImageNet 256x256 demonstrate that our tokenizer consistently outperforms standard tokenizers across six representative generative models. Our findings highlight denoising as a fundamental design principle for tokenizer development, and we hope it could motivate new perspectives for future tokenizer design.
PDF91July 22, 2025