GLOV: Modelos de Lenguaje Guía como Optimizadores Implícitos para Visión
GLOV: Guided Large Language Models as Implicit Optimizers for Vision Language Models
October 8, 2024
Autores: M. Jehanzeb Mirza, Mengjie Zhao, Zhuoyuan Mao, Sivan Doveh, Wei Lin, Paul Gavrikov, Michael Dorkenwald, Shiqi Yang, Saurav Jha, Hiromi Wakaki, Yuki Mitsufuji, Horst Possegger, Rogerio Feris, Leonid Karlinsky, James Glass
cs.AI
Resumen
En este trabajo, proponemos un método novedoso (GLOV) que permite a los Modelos de Lenguaje Grandes (LLMs) actuar como Optimizadores implícitos para los Modelos de Visión-Lenguaje (VLMs) con el fin de mejorar las tareas de visión subsecuentes. Nuestro GLOV meta-solicita a un LLM con la descripción de la tarea subsecuente, consultándolo para obtener indicaciones adecuadas para los VLM (por ejemplo, para clasificación de cero disparos con CLIP). Estas indicaciones se clasifican según una medida de pureza obtenida a través de una función de idoneidad. En cada paso de optimización respectivo, las indicaciones clasificadas se alimentan como ejemplos en contexto (con sus precisiones) para dotar al LLM con el conocimiento del tipo de indicaciones de texto preferidas por el VLM subsecuente. Además, también dirigimos explícitamente el proceso de generación del LLM en cada paso de optimización al agregar específicamente un vector de diferencia de desplazamiento de las incrustaciones de las soluciones positivas y negativas encontradas por el LLM, en pasos de optimización anteriores, a la capa intermedia de la red para el siguiente paso de generación. Este vector de desplazamiento dirige la generación del LLM hacia el tipo de lenguaje preferido por el VLM subsecuente, lo que resulta en un rendimiento mejorado en las tareas de visión subsecuentes. Evaluamos exhaustivamente nuestro GLOV en 16 conjuntos de datos diversos utilizando dos familias de VLMs, es decir, modelos de doble codificador (por ejemplo, CLIP) y codificador-decodificador (por ejemplo, LLaVa), mostrando que las soluciones descubiertas pueden mejorar el rendimiento de reconocimiento hasta un 15.0% y un 57.5% (3.8% y 21.6% en promedio) para estos modelos.
English
In this work, we propose a novel method (GLOV) enabling Large Language Models
(LLMs) to act as implicit Optimizers for Vision-Langugage Models (VLMs) to
enhance downstream vision tasks. Our GLOV meta-prompts an LLM with the
downstream task description, querying it for suitable VLM prompts (e.g., for
zero-shot classification with CLIP). These prompts are ranked according to a
purity measure obtained through a fitness function. In each respective
optimization step, the ranked prompts are fed as in-context examples (with
their accuracies) to equip the LLM with the knowledge of the type of text
prompts preferred by the downstream VLM. Furthermore, we also explicitly steer
the LLM generation process in each optimization step by specifically adding an
offset difference vector of the embeddings from the positive and negative
solutions found by the LLM, in previous optimization steps, to the intermediate
layer of the network for the next generation step. This offset vector steers
the LLM generation toward the type of language preferred by the downstream VLM,
resulting in enhanced performance on the downstream vision tasks. We
comprehensively evaluate our GLOV on 16 diverse datasets using two families of
VLMs, i.e., dual-encoder (e.g., CLIP) and encoder-decoder (e.g., LLaVa) models
-- showing that the discovered solutions can enhance the recognition
performance by up to 15.0% and 57.5% (3.8% and 21.6% on average) for these
models.Summary
AI-Generated Summary