Naar Taalmodellen Die Kunnen Zien: Computer Vision Door de LENS van Natuurlijke Taal
Towards Language Models That Can See: Computer Vision Through the LENS of Natural Language
June 28, 2023
Auteurs: William Berrios, Gautam Mittal, Tristan Thrush, Douwe Kiela, Amanpreet Singh
cs.AI
Samenvatting
Wij stellen LENS voor, een modulaire aanpak voor het aanpakken van computer vision-problemen door gebruik te maken van de kracht van grote taalmodellen (LLM's). Ons systeem gebruikt een taalmodel om te redeneren over uitvoer van een set onafhankelijke en zeer beschrijvende vision-modules die uitgebreide informatie over een afbeelding verschaffen. We evalueren de aanpak in pure computer vision-omgevingen, zoals zero- en few-shot objectherkenning, evenals op problemen die zowel vision als taal betreffen. LENS kan worden toegepast op elk kant-en-klaar LLM, en we constateren dat LLM's met LENS zeer competitief presteren in vergelijking met veel grotere en geavanceerdere systemen, zonder enige multimodale training. We maken onze code openbaar op https://github.com/ContextualAI/lens en bieden een interactieve demo aan.
English
We propose LENS, a modular approach for tackling computer vision problems by
leveraging the power of large language models (LLMs). Our system uses a
language model to reason over outputs from a set of independent and highly
descriptive vision modules that provide exhaustive information about an image.
We evaluate the approach on pure computer vision settings such as zero- and
few-shot object recognition, as well as on vision and language problems. LENS
can be applied to any off-the-shelf LLM and we find that the LLMs with LENS
perform highly competitively with much bigger and much more sophisticated
systems, without any multimodal training whatsoever. We open-source our code at
https://github.com/ContextualAI/lens and provide an interactive demo.