VisionZip: Чем длиннее, тем лучше, но необязательно в моделях видеоязыкового восприятия.VisionZip: Longer is Better but Not Necessary in Vision Language Models
Недавние достижения в моделях видео-языка улучшили производительность за счёт увеличения длины визуальных токенов, делая их значительно длиннее текстовых токенов и существенно увеличивая вычислительные затраты. Однако мы наблюдаем, что визуальные токены, сгенерированные популярными визуальными кодировщиками, такими как CLIP и SigLIP, содержат значительную избыточность. Для решения этой проблемы мы представляем VisionZip, простой, но эффективный метод, который выбирает набор информативных токенов для ввода в языковую модель, уменьшая избыточность визуальных токенов и повышая эффективность при сохранении производительности модели. Предложенный VisionZip может быть широко применен к задачам понимания изображений и видео и хорошо подходит для многоразовых диалогов в реальных сценариях, где предыдущие методы часто показывают низкую производительность. Экспериментальные результаты показывают, что VisionZip превосходит предыдущий метод, признанный лучшим в данной области, как минимум на 5% во всех настройках. Более того, наш метод значительно увеличивает скорость вывода модели, улучшая время предварительной обработки в 8 раз и позволяя модели LLaVA-Next 13B выводить результаты быстрее, чем модель LLaVA-Next 7B, при этом достигая лучших результатов. Кроме того, мы анализируем причины этой избыточности и призываем сообщество сосредоточиться на извлечении лучших визуальных признаков, а не просто увеличивать длину токенов. Наш код доступен по ссылке https://github.com/dvlab-research/VisionZip.