Bilder sind variable Längen von Repräsentationen wert.
Images are Worth Variable Length of Representations
June 4, 2025
Autoren: Lingjun Mao, Rodolfo Corona, Xin Liang, Wenhao Yan, Zineng Tang
cs.AI
Zusammenfassung
Die meisten bestehenden Vision-Encoder bilden Bilder in eine feste Sequenz von Tokens ab, wobei sie den Umstand außer Acht lassen, dass verschiedene Bilder unterschiedliche Mengen an Informationen enthalten. Beispielsweise trägt ein visuell komplexes Bild (z. B. ein unordentlicher Raum) von Natur aus mehr Informationen und verdient daher mehr Tokens als ein einfaches Bild (z. B. eine leere Wand). Um diese Ineffizienz zu beheben, schlagen wir DOVE vor, einen dynamischen Vision-Encoder, der eine variable Anzahl von visuellen Tokens (d. h. kontinuierliche Repräsentationsvektoren) erzeugt, um jedes Bild zu rekonstruieren. Unsere Ergebnisse zeigen, dass DOVE die durchschnittliche Anzahl der Tokens erheblich reduziert, während eine hohe Rekonstruktionsqualität erhalten bleibt. In mehreren Linear-Probing- und nachgelagerten multimodalen Aufgaben übertrifft es bestehende Autoencoder-basierte Tokenisierungsmethoden, wenn weitaus weniger Tokens verwendet werden, und erfasst ausdrucksstärkere semantische Merkmale im Vergleich zur Festlängen-Kodierung. Wir erweitern DOVE weiterhin mit einer abfragebedingten Tokenisierung. Indem das Modell dazu angeleitet wird, sich auf abfragerelevante Regionen zu konzentrieren, erreicht es eine effizientere und gezieltere semantische Extraktion. Unser Code und unsere Checkpoints sind unter https://dove-encoder.github.io/dove-encoder verfügbar.
English
Most existing vision encoders map images into a fixed-length sequence of
tokens, overlooking the fact that different images contain varying amounts of
information. For example, a visually complex image (e.g., a cluttered room)
inherently carries more information and thus deserves more tokens than a simple
image (e.g., a blank wall). To address this inefficiency, we propose DOVE, a
dynamic vision encoder that produces a variable number of visual tokens (i.e.,
continuous representation vectors) to reconstruct each image. Our results show
that DOVE significantly reduces the average number of tokens while maintaining
high reconstruction quality. In several linear probing and downstream
multimodal tasks, it outperforms existing autoencoder-based tokenization
methods when using far fewer tokens, capturing more expressive semantic
features compared to fixed-length encoding. We further extend DOVE with
query-conditioned tokenization. By guiding the model to focus on query-relevant
regions, it achieves more efficient and targeted semantic extraction. Our code
and checkpoints are available at https://dove-encoder.github.io/dove-encoder.