Imagens Valem por Representações de Comprimento Variável
Images are Worth Variable Length of Representations
June 4, 2025
Autores: Lingjun Mao, Rodolfo Corona, Xin Liang, Wenhao Yan, Zineng Tang
cs.AI
Resumo
A maioria dos codificadores visuais existentes mapeia imagens em uma sequência fixa de tokens, ignorando o fato de que diferentes imagens contêm quantidades variáveis de informação. Por exemplo, uma imagem visualmente complexa (como um quarto desorganizado) carrega naturalmente mais informações e, portanto, merece mais tokens do que uma imagem simples (como uma parede em branco). Para abordar essa ineficiência, propomos o DOVE, um codificador visual dinâmico que produz um número variável de tokens visuais (ou seja, vetores de representação contínua) para reconstruir cada imagem. Nossos resultados mostram que o DOVE reduz significativamente o número médio de tokens enquanto mantém uma alta qualidade de reconstrução. Em várias tarefas de sondagem linear e tarefas multimodais subsequentes, ele supera os métodos de tokenização baseados em autoencoders ao usar muito menos tokens, capturando características semânticas mais expressivas em comparação com a codificação de comprimento fixo. Além disso, estendemos o DOVE com a tokenização condicionada por consultas. Ao orientar o modelo a focar em regiões relevantes para a consulta, ele alcança uma extração semântica mais eficiente e direcionada. Nosso código e checkpoints estão disponíveis em https://dove-encoder.github.io/dove-encoder.
English
Most existing vision encoders map images into a fixed-length sequence of
tokens, overlooking the fact that different images contain varying amounts of
information. For example, a visually complex image (e.g., a cluttered room)
inherently carries more information and thus deserves more tokens than a simple
image (e.g., a blank wall). To address this inefficiency, we propose DOVE, a
dynamic vision encoder that produces a variable number of visual tokens (i.e.,
continuous representation vectors) to reconstruct each image. Our results show
that DOVE significantly reduces the average number of tokens while maintaining
high reconstruction quality. In several linear probing and downstream
multimodal tasks, it outperforms existing autoencoder-based tokenization
methods when using far fewer tokens, capturing more expressive semantic
features compared to fixed-length encoding. We further extend DOVE with
query-conditioned tokenization. By guiding the model to focus on query-relevant
regions, it achieves more efficient and targeted semantic extraction. Our code
and checkpoints are available at https://dove-encoder.github.io/dove-encoder.