GLOV: Направляемые большие языковые модели как неявные оптимизаторы для видения.

Аннотация

В данной работе мы предлагаем новый метод (GLOV), позволяющий крупным языковым моделям (LLM) действовать как неявные оптимизаторы для моделей видео-языка (VLM) с целью улучшения последующих задач обработки изображений. Наш GLOV мета-подсказывает LLM описанием последующей задачи, запрашивая у него подходящие подсказки для VLM (например, для классификации с нулевым примером с помощью CLIP). Эти подсказки ранжируются в соответствии с мерой чистоты, полученной через функцию приспособленности. На каждом соответствующем шаге оптимизации ранжированные подсказки подаются как примеры в контексте (с их точностью), чтобы оснастить LLM знаниями о типе текстовых подсказок, предпочитаемых последующим VLM. Более того, мы также явно направляем процесс генерации LLM на каждом шаге оптимизации, добавляя специфический вектор разницы смещения вложений из положительных и отрицательных решений, найденных LLM на предыдущих шагах оптимизации, в промежуточный слой сети для следующего шага генерации. Этот вектор смещения направляет генерацию LLM в сторону типа языка, предпочитаемого последующим VLM, что приводит к улучшению производительности на задачах обработки изображений. Мы подробно оцениваем наш GLOV на 16 разнообразных наборах данных, используя два семейства VLM, а именно двухкодерные (например, CLIP) и кодер-декодерные (например, LLaVa) модели - показывая, что обнаруженные решения могут улучшить производительность распознавания до 15,0% и 57,5% (в среднем на 3,8% и 21,6%) для этих моделей.

English

In this work, we propose a novel method (GLOV) enabling Large Language Models (LLMs) to act as implicit Optimizers for Vision-Langugage Models (VLMs) to enhance downstream vision tasks. Our GLOV meta-prompts an LLM with the downstream task description, querying it for suitable VLM prompts (e.g., for zero-shot classification with CLIP). These prompts are ranked according to a purity measure obtained through a fitness function. In each respective optimization step, the ranked prompts are fed as in-context examples (with their accuracies) to equip the LLM with the knowledge of the type of text prompts preferred by the downstream VLM. Furthermore, we also explicitly steer the LLM generation process in each optimization step by specifically adding an offset difference vector of the embeddings from the positive and negative solutions found by the LLM, in previous optimization steps, to the intermediate layer of the network for the next generation step. This offset vector steers the LLM generation toward the type of language preferred by the downstream VLM, resulting in enhanced performance on the downstream vision tasks. We comprehensively evaluate our GLOV on 16 diverse datasets using two families of VLMs, i.e., dual-encoder (e.g., CLIP) and encoder-decoder (e.g., LLaVa) models -- showing that the discovered solutions can enhance the recognition performance by up to 15.0% and 57.5% (3.8% and 21.6% on average) for these models.

GLOV: Направляемые большие языковые модели как неявные оптимизаторы для видения.

GLOV: Guided Large Language Models as Implicit Optimizers for Vision Language Models

Аннотация

Support