GLOV: Begeleide Grote Taalmodellen als Impliciete Optimaliseerders voor Visie Taalmodellen

Samenvatting

In dit werk stellen we een nieuwe methode (GLOV) voor die Grote Taalmodellen (LLM's) in staat stelt om op te treden als impliciete optimaliseerders voor Visie-Taalmodellen (VLM's) om de prestaties van downstream visuele taken te verbeteren. Onze GLOV meta-prompt een LLM met de beschrijving van de downstream taak, waarbij het wordt bevraagd voor geschikte VLM-prompts (bijv. voor zero-shot classificatie met CLIP). Deze prompts worden gerangschikt op basis van een zuiverheidsmaat verkregen via een fitnessfunctie. In elke respectievelijke optimalisatiestap worden de gerangschikte prompts gevoed als in-context voorbeelden (met hun nauwkeurigheden) om de LLM uit te rusten met de kennis van het type tekstprompts dat de downstream VLM verkiest. Bovendien sturen we ook expliciet het LLM-generatieproces in elke optimalisatiestap door specifiek een offsetverschilvector van de embeddings van de positieve en negatieve oplossingen die door de LLM zijn gevonden in eerdere optimalisatiestappen toe te voegen aan de tussenlaag van het netwerk voor de volgende generatiestap. Deze offsetvector stuurt de LLM-generatie aan naar het type taal dat de downstream VLM verkiest, resulterend in verbeterde prestaties op de downstream visuele taken. We evalueren onze GLOV uitgebreid op 16 diverse datasets met behulp van twee families van VLM's, namelijk dubbele-encoder (bijv. CLIP) en encoder-decoder (bijv. LLaVa) modellen -- waarbij we aantonen dat de ontdekte oplossingen de herkenningsprestaties kunnen verbeteren met maximaal 15,0% en 57,5% (respectievelijk 3,8% en 21,6% gemiddeld) voor deze modellen.

English

In this work, we propose a novel method (GLOV) enabling Large Language Models (LLMs) to act as implicit Optimizers for Vision-Langugage Models (VLMs) to enhance downstream vision tasks. Our GLOV meta-prompts an LLM with the downstream task description, querying it for suitable VLM prompts (e.g., for zero-shot classification with CLIP). These prompts are ranked according to a purity measure obtained through a fitness function. In each respective optimization step, the ranked prompts are fed as in-context examples (with their accuracies) to equip the LLM with the knowledge of the type of text prompts preferred by the downstream VLM. Furthermore, we also explicitly steer the LLM generation process in each optimization step by specifically adding an offset difference vector of the embeddings from the positive and negative solutions found by the LLM, in previous optimization steps, to the intermediate layer of the network for the next generation step. This offset vector steers the LLM generation toward the type of language preferred by the downstream VLM, resulting in enhanced performance on the downstream vision tasks. We comprehensively evaluate our GLOV on 16 diverse datasets using two families of VLMs, i.e., dual-encoder (e.g., CLIP) and encoder-decoder (e.g., LLaVa) models -- showing that the discovered solutions can enhance the recognition performance by up to 15.0% and 57.5% (3.8% and 21.6% on average) for these models.

GLOV: Begeleide Grote Taalmodellen als Impliciete Optimaliseerders voor Visie Taalmodellen

GLOV: Guided Large Language Models as Implicit Optimizers for Vision Language Models

Samenvatting

Support