Naar Taalmodellen Die Kunnen Zien: Computer Vision Door de LENS van Natuurlijke Taal

Samenvatting

Wij stellen LENS voor, een modulaire aanpak voor het aanpakken van computer vision-problemen door gebruik te maken van de kracht van grote taalmodellen (LLM's). Ons systeem gebruikt een taalmodel om te redeneren over uitvoer van een set onafhankelijke en zeer beschrijvende vision-modules die uitgebreide informatie over een afbeelding verschaffen. We evalueren de aanpak in pure computer vision-omgevingen, zoals zero- en few-shot objectherkenning, evenals op problemen die zowel vision als taal betreffen. LENS kan worden toegepast op elk kant-en-klaar LLM, en we constateren dat LLM's met LENS zeer competitief presteren in vergelijking met veel grotere en geavanceerdere systemen, zonder enige multimodale training. We maken onze code openbaar op https://github.com/ContextualAI/lens en bieden een interactieve demo aan.

English

We propose LENS, a modular approach for tackling computer vision problems by leveraging the power of large language models (LLMs). Our system uses a language model to reason over outputs from a set of independent and highly descriptive vision modules that provide exhaustive information about an image. We evaluate the approach on pure computer vision settings such as zero- and few-shot object recognition, as well as on vision and language problems. LENS can be applied to any off-the-shelf LLM and we find that the LLMs with LENS perform highly competitively with much bigger and much more sophisticated systems, without any multimodal training whatsoever. We open-source our code at https://github.com/ContextualAI/lens and provide an interactive demo.

Naar Taalmodellen Die Kunnen Zien: Computer Vision Door de LENS van Natuurlijke Taal

Towards Language Models That Can See: Computer Vision Through the LENS of Natural Language

Samenvatting

Support