GLOV: Направляемые большие языковые модели как неявные оптимизаторы для видения.
GLOV: Guided Large Language Models as Implicit Optimizers for Vision Language Models
October 8, 2024
Авторы: M. Jehanzeb Mirza, Mengjie Zhao, Zhuoyuan Mao, Sivan Doveh, Wei Lin, Paul Gavrikov, Michael Dorkenwald, Shiqi Yang, Saurav Jha, Hiromi Wakaki, Yuki Mitsufuji, Horst Possegger, Rogerio Feris, Leonid Karlinsky, James Glass
cs.AI
Аннотация
В данной работе мы предлагаем новый метод (GLOV), позволяющий крупным языковым моделям (LLM) действовать как неявные оптимизаторы для моделей видео-языка (VLM) с целью улучшения последующих задач обработки изображений. Наш GLOV мета-подсказывает LLM описанием последующей задачи, запрашивая у него подходящие подсказки для VLM (например, для классификации с нулевым примером с помощью CLIP). Эти подсказки ранжируются в соответствии с мерой чистоты, полученной через функцию приспособленности. На каждом соответствующем шаге оптимизации ранжированные подсказки подаются как примеры в контексте (с их точностью), чтобы оснастить LLM знаниями о типе текстовых подсказок, предпочитаемых последующим VLM. Более того, мы также явно направляем процесс генерации LLM на каждом шаге оптимизации, добавляя специфический вектор разницы смещения вложений из положительных и отрицательных решений, найденных LLM на предыдущих шагах оптимизации, в промежуточный слой сети для следующего шага генерации. Этот вектор смещения направляет генерацию LLM в сторону типа языка, предпочитаемого последующим VLM, что приводит к улучшению производительности на задачах обработки изображений. Мы подробно оцениваем наш GLOV на 16 разнообразных наборах данных, используя два семейства VLM, а именно двухкодерные (например, CLIP) и кодер-декодерные (например, LLaVa) модели - показывая, что обнаруженные решения могут улучшить производительность распознавания до 15,0% и 57,5% (в среднем на 3,8% и 21,6%) для этих моделей.
English
In this work, we propose a novel method (GLOV) enabling Large Language Models
(LLMs) to act as implicit Optimizers for Vision-Langugage Models (VLMs) to
enhance downstream vision tasks. Our GLOV meta-prompts an LLM with the
downstream task description, querying it for suitable VLM prompts (e.g., for
zero-shot classification with CLIP). These prompts are ranked according to a
purity measure obtained through a fitness function. In each respective
optimization step, the ranked prompts are fed as in-context examples (with
their accuracies) to equip the LLM with the knowledge of the type of text
prompts preferred by the downstream VLM. Furthermore, we also explicitly steer
the LLM generation process in each optimization step by specifically adding an
offset difference vector of the embeddings from the positive and negative
solutions found by the LLM, in previous optimization steps, to the intermediate
layer of the network for the next generation step. This offset vector steers
the LLM generation toward the type of language preferred by the downstream VLM,
resulting in enhanced performance on the downstream vision tasks. We
comprehensively evaluate our GLOV on 16 diverse datasets using two families of
VLMs, i.e., dual-encoder (e.g., CLIP) and encoder-decoder (e.g., LLaVa) models
-- showing that the discovered solutions can enhance the recognition
performance by up to 15.0% and 57.5% (3.8% and 21.6% on average) for these
models.Summary
AI-Generated Summary