Тонкая настройка сквозного токенизатора для компьютерного зрения
End-to-End Vision Tokenizer Tuning
May 15, 2025
Авторы: Wenxuan Wang, Fan Zhang, Yufeng Cui, Haiwen Diao, Zhuoyan Luo, Huchuan Lu, Jing Liu, Xinlong Wang
cs.AI
Аннотация
Существующие подходы к токенизации изображений изолируют оптимизацию визуальных токенизаторов от последующего обучения, неявно предполагая, что визуальные токены могут хорошо обобщаться для различных задач, таких как генерация изображений и визуальное ответы на вопросы. Токенизатор, оптимизированный для низкоуровневой реконструкции, не учитывает специфику задач, требующих различных представлений и семантики. Такой разобщённый подход приводит к критическому несоответствию: потери при токенизации могут стать узким местом для представления в целевых задачах. Например, ошибки в токенизации текста на изображении приводят к плохим результатам при его распознавании или генерации. Чтобы решить эту проблему, мы предлагаем ETT — подход к настройке визуального токенизатора, который позволяет совместно оптимизировать токенизацию изображений и целевые авторегрессионные задачи. В отличие от предыдущих авторегрессионных моделей, использующих только дискретные индексы из замороженного токенизатора, ETT использует визуальные эмбеддинги из кодовой книги токенизатора и оптимизирует токенизаторы изображений сквозным образом, учитывая как цели реконструкции, так и генерации подписей. ETT может быть легко интегрирован в существующие конвейеры обучения с минимальными изменениями архитектуры. Наш подход прост в реализации и интеграции, не требуя изменения исходных кодовых книг или архитектур используемых больших языковых моделей. Многочисленные эксперименты демонстрируют, что предложенная сквозная настройка визуального токенизатора обеспечивает значительный прирост производительности, например, на 2-6% для задач мультимодального понимания и визуальной генерации по сравнению с базовыми подходами с замороженным токенизатором, при этом сохраняя исходную способность к реконструкции. Мы надеемся, что этот простой и эффективный метод сможет расширить возможности мультимодальных базовых моделей за пределы генерации и понимания изображений.
English
Existing vision tokenization isolates the optimization of vision tokenizers
from downstream training, implicitly assuming the visual tokens can generalize
well across various tasks, e.g., image generation and visual question
answering. The vision tokenizer optimized for low-level reconstruction is
agnostic to downstream tasks requiring varied representations and semantics.
This decoupled paradigm introduces a critical misalignment: The loss of the
vision tokenization can be the representation bottleneck for target tasks. For
example, errors in tokenizing text in a given image lead to poor results when
recognizing or generating them. To address this, we propose ETT, an end-to-end
vision tokenizer tuning approach that enables joint optimization between vision
tokenization and target autoregressive tasks. Unlike prior autoregressive
models that use only discrete indices from a frozen vision tokenizer, ETT
leverages the visual embeddings of the tokenizer codebook, and optimizes the
vision tokenizers end-to-end with both reconstruction and caption objectives.
ETT can be seamlessly integrated into existing training pipelines with minimal
architecture modifications. Our ETT is simple to implement and integrate,
without the need to adjust the original codebooks or architectures of the
employed large language models. Extensive experiments demonstrate that our
proposed end-to-end vision tokenizer tuning unlocks significant performance
gains, i.e., 2-6% for multimodal understanding and visual generation tasks
compared to frozen tokenizer baselines, while preserving the original
reconstruction capability. We hope this very simple and strong method can
empower multimodal foundation models besides image generation and
understanding.Summary
AI-Generated Summary