ChatPaper.aiChatPaper

Las imágenes valen una longitud variable de representaciones.

Images are Worth Variable Length of Representations

June 4, 2025
Autores: Lingjun Mao, Rodolfo Corona, Xin Liang, Wenhao Yan, Zineng Tang
cs.AI

Resumen

La mayoría de los codificadores visuales existentes mapean imágenes en una secuencia de tokens de longitud fija, pasando por alto el hecho de que diferentes imágenes contienen cantidades variables de información. Por ejemplo, una imagen visualmente compleja (por ejemplo, una habitación desordenada) inherentemente contiene más información y, por lo tanto, merece más tokens que una imagen simple (por ejemplo, una pared en blanco). Para abordar esta ineficiencia, proponemos DOVE, un codificador visual dinámico que produce un número variable de tokens visuales (es decir, vectores de representación continua) para reconstruir cada imagen. Nuestros resultados muestran que DOVE reduce significativamente el número promedio de tokens mientras mantiene una alta calidad de reconstrucción. En varias tareas de sondeo lineal y multimodal posteriores, supera a los métodos de tokenización basados en autocodificadores existentes al utilizar muchos menos tokens, capturando características semánticas más expresivas en comparación con la codificación de longitud fija. Además, extendemos DOVE con tokenización condicionada por consultas. Al guiar al modelo para que se enfoque en regiones relevantes para la consulta, se logra una extracción semántica más eficiente y dirigida. Nuestro código y puntos de control están disponibles en https://dove-encoder.github.io/dove-encoder.
English
Most existing vision encoders map images into a fixed-length sequence of tokens, overlooking the fact that different images contain varying amounts of information. For example, a visually complex image (e.g., a cluttered room) inherently carries more information and thus deserves more tokens than a simple image (e.g., a blank wall). To address this inefficiency, we propose DOVE, a dynamic vision encoder that produces a variable number of visual tokens (i.e., continuous representation vectors) to reconstruct each image. Our results show that DOVE significantly reduces the average number of tokens while maintaining high reconstruction quality. In several linear probing and downstream multimodal tasks, it outperforms existing autoencoder-based tokenization methods when using far fewer tokens, capturing more expressive semantic features compared to fixed-length encoding. We further extend DOVE with query-conditioned tokenization. By guiding the model to focus on query-relevant regions, it achieves more efficient and targeted semantic extraction. Our code and checkpoints are available at https://dove-encoder.github.io/dove-encoder.
PDF32June 6, 2025