Le immagini valgono una lunghezza variabile di rappresentazioni
Images are Worth Variable Length of Representations
June 4, 2025
Autori: Lingjun Mao, Rodolfo Corona, Xin Liang, Wenhao Yan, Zineng Tang
cs.AI
Abstract
La maggior parte degli encoder visivi esistenti mappano le immagini in una sequenza fissa di token, trascurando il fatto che immagini diverse contengono quantità variabili di informazioni. Ad esempio, un'immagine visivamente complessa (ad esempio, una stanza disordinata) contiene intrinsecamente più informazioni e quindi merita più token rispetto a un'immagine semplice (ad esempio, una parete vuota). Per affrontare questa inefficienza, proponiamo DOVE, un encoder visivo dinamico che produce un numero variabile di token visivi (ovvero, vettori di rappresentazione continua) per ricostruire ciascuna immagine. I nostri risultati mostrano che DOVE riduce significativamente il numero medio di token mantenendo un'elevata qualità di ricostruzione. In diverse attività di probing lineare e di downstream multimodale, supera i metodi di tokenizzazione basati su autoencoder esistenti utilizzando molti meno token, catturando caratteristiche semantiche più espressive rispetto alla codifica a lunghezza fissa. Estendiamo ulteriormente DOVE con la tokenizzazione condizionata da query. Guidando il modello a concentrarsi sulle regioni rilevanti per la query, si ottiene un'estrazione semantica più efficiente e mirata. Il nostro codice e i checkpoint sono disponibili all'indirizzo https://dove-encoder.github.io/dove-encoder.
English
Most existing vision encoders map images into a fixed-length sequence of
tokens, overlooking the fact that different images contain varying amounts of
information. For example, a visually complex image (e.g., a cluttered room)
inherently carries more information and thus deserves more tokens than a simple
image (e.g., a blank wall). To address this inefficiency, we propose DOVE, a
dynamic vision encoder that produces a variable number of visual tokens (i.e.,
continuous representation vectors) to reconstruct each image. Our results show
that DOVE significantly reduces the average number of tokens while maintaining
high reconstruction quality. In several linear probing and downstream
multimodal tasks, it outperforms existing autoencoder-based tokenization
methods when using far fewer tokens, capturing more expressive semantic
features compared to fixed-length encoding. We further extend DOVE with
query-conditioned tokenization. By guiding the model to focus on query-relevant
regions, it achieves more efficient and targeted semantic extraction. Our code
and checkpoints are available at https://dove-encoder.github.io/dove-encoder.