GLOV : Modèles de Langage Guidés comme Optimiseurs Implicites pour la Vision
GLOV: Guided Large Language Models as Implicit Optimizers for Vision Language Models
October 8, 2024
Auteurs: M. Jehanzeb Mirza, Mengjie Zhao, Zhuoyuan Mao, Sivan Doveh, Wei Lin, Paul Gavrikov, Michael Dorkenwald, Shiqi Yang, Saurav Jha, Hiromi Wakaki, Yuki Mitsufuji, Horst Possegger, Rogerio Feris, Leonid Karlinsky, James Glass
cs.AI
Résumé
Dans ce travail, nous proposons une méthode novatrice (GLOV) permettant aux grands modèles de langage (LLM) d'agir en tant qu'optimiseurs implicites pour les modèles Vision-Langage (VLM) afin d'améliorer les tâches de vision en aval. Notre GLOV méta-sollicite un LLM avec la description de la tâche en aval, l'interrogeant pour des sollicitations VLM appropriées (par exemple, pour la classification sans étiquette avec CLIP). Ces sollicitations sont classées selon une mesure de pureté obtenue grâce à une fonction de fitness. À chaque étape d'optimisation respective, les sollicitations classées sont fournies en tant qu'exemples en contexte (avec leurs précisions) pour doter le LLM de la connaissance du type de sollicitations textuelles préférées par le VLM en aval. De plus, nous orientons également explicitement le processus de génération du LLM à chaque étape d'optimisation en ajoutant spécifiquement un vecteur de différence de décalage des plongements des solutions positives et négatives trouvées par le LLM, lors des étapes d'optimisation précédentes, à la couche intermédiaire du réseau pour l'étape de génération suivante. Ce vecteur de décalage oriente la génération du LLM vers le type de langage préféré par le VLM en aval, ce qui se traduit par une performance améliorée sur les tâches de vision en aval. Nous évaluons de manière exhaustive notre GLOV sur 16 ensembles de données divers en utilisant deux familles de VLM, à savoir les modèles à double encodeur (par exemple, CLIP) et encodeur-décodeur (par exemple, LLaVa) - démontrant que les solutions découvertes peuvent améliorer la performance de reconnaissance jusqu'à 15,0 % et 57,5 % (3,8 % et 21,6 % en moyenne) pour ces modèles.
English
In this work, we propose a novel method (GLOV) enabling Large Language Models
(LLMs) to act as implicit Optimizers for Vision-Langugage Models (VLMs) to
enhance downstream vision tasks. Our GLOV meta-prompts an LLM with the
downstream task description, querying it for suitable VLM prompts (e.g., for
zero-shot classification with CLIP). These prompts are ranked according to a
purity measure obtained through a fitness function. In each respective
optimization step, the ranked prompts are fed as in-context examples (with
their accuracies) to equip the LLM with the knowledge of the type of text
prompts preferred by the downstream VLM. Furthermore, we also explicitly steer
the LLM generation process in each optimization step by specifically adding an
offset difference vector of the embeddings from the positive and negative
solutions found by the LLM, in previous optimization steps, to the intermediate
layer of the network for the next generation step. This offset vector steers
the LLM generation toward the type of language preferred by the downstream VLM,
resulting in enhanced performance on the downstream vision tasks. We
comprehensively evaluate our GLOV on 16 diverse datasets using two families of
VLMs, i.e., dual-encoder (e.g., CLIP) and encoder-decoder (e.g., LLaVa) models
-- showing that the discovered solutions can enhance the recognition
performance by up to 15.0% and 57.5% (3.8% and 21.6% on average) for these
models.Summary
AI-Generated Summary