ChatPaper.aiChatPaper

Les images valent une longueur variable de représentations

Images are Worth Variable Length of Representations

June 4, 2025
Auteurs: Lingjun Mao, Rodolfo Corona, Xin Liang, Wenhao Yan, Zineng Tang
cs.AI

Résumé

La plupart des encodeurs visuels existants transforment les images en une séquence fixe de tokens, négligeant le fait que différentes images contiennent des quantités variables d'information. Par exemple, une image visuellement complexe (comme une pièce en désordre) contient intrinsèquement plus d'information et mérite donc plus de tokens qu'une image simple (comme un mur vide). Pour remédier à cette inefficacité, nous proposons DOVE, un encodeur visuel dynamique qui génère un nombre variable de tokens visuels (c'est-à-dire des vecteurs de représentation continue) pour reconstruire chaque image. Nos résultats montrent que DOVE réduit significativement le nombre moyen de tokens tout en maintenant une qualité de reconstruction élevée. Dans plusieurs tâches de sondage linéaire et de multimodalité en aval, il surpasse les méthodes de tokenisation basées sur des autoencodeurs existantes en utilisant beaucoup moins de tokens, capturant des caractéristiques sémantiques plus expressives par rapport à un encodage de longueur fixe. Nous étendons également DOVE avec une tokenisation conditionnée par des requêtes. En guidant le modèle à se concentrer sur les régions pertinentes par rapport à la requête, il réalise une extraction sémantique plus efficace et ciblée. Notre code et nos points de contrôle sont disponibles à l'adresse https://dove-encoder.github.io/dove-encoder.
English
Most existing vision encoders map images into a fixed-length sequence of tokens, overlooking the fact that different images contain varying amounts of information. For example, a visually complex image (e.g., a cluttered room) inherently carries more information and thus deserves more tokens than a simple image (e.g., a blank wall). To address this inefficiency, we propose DOVE, a dynamic vision encoder that produces a variable number of visual tokens (i.e., continuous representation vectors) to reconstruct each image. Our results show that DOVE significantly reduces the average number of tokens while maintaining high reconstruction quality. In several linear probing and downstream multimodal tasks, it outperforms existing autoencoder-based tokenization methods when using far fewer tokens, capturing more expressive semantic features compared to fixed-length encoding. We further extend DOVE with query-conditioned tokenization. By guiding the model to focus on query-relevant regions, it achieves more efficient and targeted semantic extraction. Our code and checkpoints are available at https://dove-encoder.github.io/dove-encoder.
PDF32June 6, 2025