GLOV: Modelos de Linguagem Grandes Guiados como Otimizadores Implícitos para Visão
GLOV: Guided Large Language Models as Implicit Optimizers for Vision Language Models
October 8, 2024
Autores: M. Jehanzeb Mirza, Mengjie Zhao, Zhuoyuan Mao, Sivan Doveh, Wei Lin, Paul Gavrikov, Michael Dorkenwald, Shiqi Yang, Saurav Jha, Hiromi Wakaki, Yuki Mitsufuji, Horst Possegger, Rogerio Feris, Leonid Karlinsky, James Glass
cs.AI
Resumo
Neste trabalho, propomos um método inovador (GLOV) que permite que Modelos de Linguagem Grandes (LLMs) atuem como Otimizadores implícitos para Modelos de Visão-Linguagem (VLMs) a fim de aprimorar tarefas de visão subsequentes. Nosso GLOV meta-solicita um LLM com a descrição da tarefa subsequente, consultando-o para obter prompts adequados para VLMs (por exemplo, para classificação de zero-shot com CLIP). Esses prompts são classificados de acordo com uma medida de pureza obtida por meio de uma função de adequação. Em cada etapa de otimização respectiva, os prompts classificados são alimentados como exemplos em contexto (com suas precisões) para equipar o LLM com o conhecimento do tipo de prompts de texto preferidos pelo VLM subsequente. Além disso, também direcionamos explicitamente o processo de geração do LLM em cada etapa de otimização, adicionando especificamente um vetor de diferença de deslocamento das incrustações das soluções positivas e negativas encontradas pelo LLM, em etapas de otimização anteriores, à camada intermediária da rede para a próxima etapa de geração. Esse vetor de deslocamento direciona a geração do LLM para o tipo de linguagem preferido pelo VLM subsequente, resultando em um desempenho aprimorado nas tarefas de visão subsequentes. Avaliamos abrangentemente nosso GLOV em 16 conjuntos de dados diversos usando duas famílias de VLMs, ou seja, modelos de duplo codificador (por exemplo, CLIP) e codificador-decodificador (por exemplo, LLaVa) - mostrando que as soluções descobertas podem aprimorar o desempenho de reconhecimento em até 15,0% e 57,5% (3,8% e 21,6% em média) para esses modelos.
English
In this work, we propose a novel method (GLOV) enabling Large Language Models
(LLMs) to act as implicit Optimizers for Vision-Langugage Models (VLMs) to
enhance downstream vision tasks. Our GLOV meta-prompts an LLM with the
downstream task description, querying it for suitable VLM prompts (e.g., for
zero-shot classification with CLIP). These prompts are ranked according to a
purity measure obtained through a fitness function. In each respective
optimization step, the ranked prompts are fed as in-context examples (with
their accuracies) to equip the LLM with the knowledge of the type of text
prompts preferred by the downstream VLM. Furthermore, we also explicitly steer
the LLM generation process in each optimization step by specifically adding an
offset difference vector of the embeddings from the positive and negative
solutions found by the LLM, in previous optimization steps, to the intermediate
layer of the network for the next generation step. This offset vector steers
the LLM generation toward the type of language preferred by the downstream VLM,
resulting in enhanced performance on the downstream vision tasks. We
comprehensively evaluate our GLOV on 16 diverse datasets using two families of
VLMs, i.e., dual-encoder (e.g., CLIP) and encoder-decoder (e.g., LLaVa) models
-- showing that the discovered solutions can enhance the recognition
performance by up to 15.0% and 57.5% (3.8% and 21.6% on average) for these
models.Summary
AI-Generated Summary