GLOV: Modelos de Linguagem Grandes Guiados como Otimizadores Implícitos para Visão

Resumo

Neste trabalho, propomos um método inovador (GLOV) que permite que Modelos de Linguagem Grandes (LLMs) atuem como Otimizadores implícitos para Modelos de Visão-Linguagem (VLMs) a fim de aprimorar tarefas de visão subsequentes. Nosso GLOV meta-solicita um LLM com a descrição da tarefa subsequente, consultando-o para obter prompts adequados para VLMs (por exemplo, para classificação de zero-shot com CLIP). Esses prompts são classificados de acordo com uma medida de pureza obtida por meio de uma função de adequação. Em cada etapa de otimização respectiva, os prompts classificados são alimentados como exemplos em contexto (com suas precisões) para equipar o LLM com o conhecimento do tipo de prompts de texto preferidos pelo VLM subsequente. Além disso, também direcionamos explicitamente o processo de geração do LLM em cada etapa de otimização, adicionando especificamente um vetor de diferença de deslocamento das incrustações das soluções positivas e negativas encontradas pelo LLM, em etapas de otimização anteriores, à camada intermediária da rede para a próxima etapa de geração. Esse vetor de deslocamento direciona a geração do LLM para o tipo de linguagem preferido pelo VLM subsequente, resultando em um desempenho aprimorado nas tarefas de visão subsequentes. Avaliamos abrangentemente nosso GLOV em 16 conjuntos de dados diversos usando duas famílias de VLMs, ou seja, modelos de duplo codificador (por exemplo, CLIP) e codificador-decodificador (por exemplo, LLaVa) - mostrando que as soluções descobertas podem aprimorar o desempenho de reconhecimento em até 15,0% e 57,5% (3,8% e 21,6% em média) para esses modelos.

English

In this work, we propose a novel method (GLOV) enabling Large Language Models (LLMs) to act as implicit Optimizers for Vision-Langugage Models (VLMs) to enhance downstream vision tasks. Our GLOV meta-prompts an LLM with the downstream task description, querying it for suitable VLM prompts (e.g., for zero-shot classification with CLIP). These prompts are ranked according to a purity measure obtained through a fitness function. In each respective optimization step, the ranked prompts are fed as in-context examples (with their accuracies) to equip the LLM with the knowledge of the type of text prompts preferred by the downstream VLM. Furthermore, we also explicitly steer the LLM generation process in each optimization step by specifically adding an offset difference vector of the embeddings from the positive and negative solutions found by the LLM, in previous optimization steps, to the intermediate layer of the network for the next generation step. This offset vector steers the LLM generation toward the type of language preferred by the downstream VLM, resulting in enhanced performance on the downstream vision tasks. We comprehensively evaluate our GLOV on 16 diverse datasets using two families of VLMs, i.e., dual-encoder (e.g., CLIP) and encoder-decoder (e.g., LLaVa) models -- showing that the discovered solutions can enhance the recognition performance by up to 15.0% and 57.5% (3.8% and 21.6% on average) for these models.

GLOV: Modelos de Linguagem Grandes Guiados como Otimizadores Implícitos para Visão

GLOV: Guided Large Language Models as Implicit Optimizers for Vision Language Models

Resumo

Support