ChatPaper.aiChatPaper

Изображения стоят переменной длины представлений

Images are Worth Variable Length of Representations

June 4, 2025
Авторы: Lingjun Mao, Rodolfo Corona, Xin Liang, Wenhao Yan, Zineng Tang
cs.AI

Аннотация

Большинство существующих визуальных кодировщиков преобразуют изображения в последовательность токенов фиксированной длины, игнорируя тот факт, что разные изображения содержат различное количество информации. Например, визуально сложное изображение (например, захламленная комната) по своей природе несет больше информации и, следовательно, заслуживает большего количества токенов, чем простое изображение (например, пустая стена). Чтобы устранить эту неэффективность, мы предлагаем DOVE — динамический визуальный кодировщик, который генерирует переменное количество визуальных токенов (т.е. векторов непрерывного представления) для реконструкции каждого изображения. Наши результаты показывают, что DOVE значительно сокращает среднее количество токенов, сохраняя при этом высокое качество реконструкции. В нескольких задачах линейного зондирования и многомодальных задач он превосходит существующие методы токенизации на основе автоэнкодеров, используя значительно меньше токенов и захватывая более выразительные семантические признаки по сравнению с кодированием фиксированной длины. Мы также расширяем DOVE с помощью токенизации, обусловленной запросом. Направляя модель на фокусирование на областях, релевантных запросу, достигается более эффективное и целенаправленное извлечение семантики. Наш код и контрольные точки доступны по адресу https://dove-encoder.github.io/dove-encoder.
English
Most existing vision encoders map images into a fixed-length sequence of tokens, overlooking the fact that different images contain varying amounts of information. For example, a visually complex image (e.g., a cluttered room) inherently carries more information and thus deserves more tokens than a simple image (e.g., a blank wall). To address this inefficiency, we propose DOVE, a dynamic vision encoder that produces a variable number of visual tokens (i.e., continuous representation vectors) to reconstruct each image. Our results show that DOVE significantly reduces the average number of tokens while maintaining high reconstruction quality. In several linear probing and downstream multimodal tasks, it outperforms existing autoencoder-based tokenization methods when using far fewer tokens, capturing more expressive semantic features compared to fixed-length encoding. We further extend DOVE with query-conditioned tokenization. By guiding the model to focus on query-relevant regions, it achieves more efficient and targeted semantic extraction. Our code and checkpoints are available at https://dove-encoder.github.io/dove-encoder.
PDF32June 6, 2025