GLOV: Begeleide Grote Taalmodellen als Impliciete Optimaliseerders voor Visie Taalmodellen
GLOV: Guided Large Language Models as Implicit Optimizers for Vision Language Models
October 8, 2024
Auteurs: M. Jehanzeb Mirza, Mengjie Zhao, Zhuoyuan Mao, Sivan Doveh, Wei Lin, Paul Gavrikov, Michael Dorkenwald, Shiqi Yang, Saurav Jha, Hiromi Wakaki, Yuki Mitsufuji, Horst Possegger, Rogerio Feris, Leonid Karlinsky, James Glass
cs.AI
Samenvatting
In dit werk stellen we een nieuwe methode (GLOV) voor die Grote Taalmodellen (LLM's) in staat stelt om op te treden als impliciete optimaliseerders voor Visie-Taalmodellen (VLM's) om de prestaties van downstream visuele taken te verbeteren. Onze GLOV meta-prompt een LLM met de beschrijving van de downstream taak, waarbij het wordt bevraagd voor geschikte VLM-prompts (bijv. voor zero-shot classificatie met CLIP). Deze prompts worden gerangschikt op basis van een zuiverheidsmaat verkregen via een fitnessfunctie. In elke respectievelijke optimalisatiestap worden de gerangschikte prompts gevoed als in-context voorbeelden (met hun nauwkeurigheden) om de LLM uit te rusten met de kennis van het type tekstprompts dat de downstream VLM verkiest. Bovendien sturen we ook expliciet het LLM-generatieproces in elke optimalisatiestap door specifiek een offsetverschilvector van de embeddings van de positieve en negatieve oplossingen die door de LLM zijn gevonden in eerdere optimalisatiestappen toe te voegen aan de tussenlaag van het netwerk voor de volgende generatiestap. Deze offsetvector stuurt de LLM-generatie aan naar het type taal dat de downstream VLM verkiest, resulterend in verbeterde prestaties op de downstream visuele taken. We evalueren onze GLOV uitgebreid op 16 diverse datasets met behulp van twee families van VLM's, namelijk dubbele-encoder (bijv. CLIP) en encoder-decoder (bijv. LLaVa) modellen -- waarbij we aantonen dat de ontdekte oplossingen de herkenningsprestaties kunnen verbeteren met maximaal 15,0% en 57,5% (respectievelijk 3,8% en 21,6% gemiddeld) voor deze modellen.
English
In this work, we propose a novel method (GLOV) enabling Large Language Models
(LLMs) to act as implicit Optimizers for Vision-Langugage Models (VLMs) to
enhance downstream vision tasks. Our GLOV meta-prompts an LLM with the
downstream task description, querying it for suitable VLM prompts (e.g., for
zero-shot classification with CLIP). These prompts are ranked according to a
purity measure obtained through a fitness function. In each respective
optimization step, the ranked prompts are fed as in-context examples (with
their accuracies) to equip the LLM with the knowledge of the type of text
prompts preferred by the downstream VLM. Furthermore, we also explicitly steer
the LLM generation process in each optimization step by specifically adding an
offset difference vector of the embeddings from the positive and negative
solutions found by the LLM, in previous optimization steps, to the intermediate
layer of the network for the next generation step. This offset vector steers
the LLM generation toward the type of language preferred by the downstream VLM,
resulting in enhanced performance on the downstream vision tasks. We
comprehensively evaluate our GLOV on 16 diverse datasets using two families of
VLMs, i.e., dual-encoder (e.g., CLIP) and encoder-decoder (e.g., LLaVa) models
-- showing that the discovered solutions can enhance the recognition
performance by up to 15.0% and 57.5% (3.8% and 21.6% on average) for these
models.Summary
AI-Generated Summary