Afbeeldingen zijn waardevol voor variabele lengtes van representaties
Images are Worth Variable Length of Representations
June 4, 2025
Auteurs: Lingjun Mao, Rodolfo Corona, Xin Liang, Wenhao Yan, Zineng Tang
cs.AI
Samenvatting
De meeste bestaande vision-encoders zetten afbeeldingen om in een vaste reeks tokens, waarbij over het hoofd wordt gezien dat verschillende afbeeldingen variërende hoeveelheden informatie bevatten. Een visueel complexe afbeelding (bijvoorbeeld een rommelige kamer) bevat bijvoorbeeld van nature meer informatie en verdient daarom meer tokens dan een eenvoudige afbeelding (bijvoorbeeld een lege muur). Om deze inefficiëntie aan te pakken, stellen we DOVE voor, een dynamische vision-encoder die een variabel aantal visuele tokens (d.w.z. continue representatievectoren) produceert om elke afbeelding te reconstrueren. Onze resultaten tonen aan dat DOVE het gemiddelde aantal tokens aanzienlijk vermindert, terwijl de hoge reconstructiekwaliteit behouden blijft. In verschillende lineaire probing- en downstream multimodale taken presteert het beter dan bestaande autoencoder-gebaseerde tokenisatiemethoden, waarbij het veel minder tokens gebruikt en meer expressieve semantische kenmerken vastlegt in vergelijking met vaste-lengte-codering. We breiden DOVE verder uit met query-gestuurde tokenisatie. Door het model te begeleiden om zich te concentreren op query-relevante regio's, bereikt het een efficiëntere en gerichtere semantische extractie. Onze code en checkpoints zijn beschikbaar op https://dove-encoder.github.io/dove-encoder.
English
Most existing vision encoders map images into a fixed-length sequence of
tokens, overlooking the fact that different images contain varying amounts of
information. For example, a visually complex image (e.g., a cluttered room)
inherently carries more information and thus deserves more tokens than a simple
image (e.g., a blank wall). To address this inefficiency, we propose DOVE, a
dynamic vision encoder that produces a variable number of visual tokens (i.e.,
continuous representation vectors) to reconstruct each image. Our results show
that DOVE significantly reduces the average number of tokens while maintaining
high reconstruction quality. In several linear probing and downstream
multimodal tasks, it outperforms existing autoencoder-based tokenization
methods when using far fewer tokens, capturing more expressive semantic
features compared to fixed-length encoding. We further extend DOVE with
query-conditioned tokenization. By guiding the model to focus on query-relevant
regions, it achieves more efficient and targeted semantic extraction. Our code
and checkpoints are available at https://dove-encoder.github.io/dove-encoder.