Hin zu Sprachmodellen, die sehen können: Computer Vision durch die LENS der natürlichen Sprache
Towards Language Models That Can See: Computer Vision Through the LENS of Natural Language
June 28, 2023
Autoren: William Berrios, Gautam Mittal, Tristan Thrush, Douwe Kiela, Amanpreet Singh
cs.AI
Zusammenfassung
Wir schlagen LENS vor, einen modularen Ansatz zur Bewältigung von Computer-Vision-Problemen durch die Nutzung der Leistungsfähigkeit großer Sprachmodelle (LLMs). Unser System verwendet ein Sprachmodell, um über die Ausgaben einer Reihe unabhängiger und hochdeskriptiver Vision-Module zu reflektieren, die umfassende Informationen über ein Bild liefern. Wir evaluieren den Ansatz in reinen Computer-Vision-Szenarien wie Zero- und Few-Shot-Objekterkennung sowie bei Vision- und Sprachproblemen. LENS kann auf jedes handelsübliche LLM angewendet werden, und wir stellen fest, dass LLMs mit LENS sehr wettbewerbsfähig mit viel größeren und komplexeren Systemen abschneiden, ohne jegliches multimodale Training. Wir stellen unseren Code unter https://github.com/ContextualAI/lens als Open-Source zur Verfügung und bieten eine interaktive Demo an.
English
We propose LENS, a modular approach for tackling computer vision problems by
leveraging the power of large language models (LLMs). Our system uses a
language model to reason over outputs from a set of independent and highly
descriptive vision modules that provide exhaustive information about an image.
We evaluate the approach on pure computer vision settings such as zero- and
few-shot object recognition, as well as on vision and language problems. LENS
can be applied to any off-the-shelf LLM and we find that the LLMs with LENS
perform highly competitively with much bigger and much more sophisticated
systems, without any multimodal training whatsoever. We open-source our code at
https://github.com/ContextualAI/lens and provide an interactive demo.