ChatPaper.aiChatPaper

Hin zu Sprachmodellen, die sehen können: Computer Vision durch die LENS der natürlichen Sprache

Towards Language Models That Can See: Computer Vision Through the LENS of Natural Language

June 28, 2023
Autoren: William Berrios, Gautam Mittal, Tristan Thrush, Douwe Kiela, Amanpreet Singh
cs.AI

Zusammenfassung

Wir schlagen LENS vor, einen modularen Ansatz zur Bewältigung von Computer-Vision-Problemen durch die Nutzung der Leistungsfähigkeit großer Sprachmodelle (LLMs). Unser System verwendet ein Sprachmodell, um über die Ausgaben einer Reihe unabhängiger und hochdeskriptiver Vision-Module zu reflektieren, die umfassende Informationen über ein Bild liefern. Wir evaluieren den Ansatz in reinen Computer-Vision-Szenarien wie Zero- und Few-Shot-Objekterkennung sowie bei Vision- und Sprachproblemen. LENS kann auf jedes handelsübliche LLM angewendet werden, und wir stellen fest, dass LLMs mit LENS sehr wettbewerbsfähig mit viel größeren und komplexeren Systemen abschneiden, ohne jegliches multimodale Training. Wir stellen unseren Code unter https://github.com/ContextualAI/lens als Open-Source zur Verfügung und bieten eine interaktive Demo an.
English
We propose LENS, a modular approach for tackling computer vision problems by leveraging the power of large language models (LLMs). Our system uses a language model to reason over outputs from a set of independent and highly descriptive vision modules that provide exhaustive information about an image. We evaluate the approach on pure computer vision settings such as zero- and few-shot object recognition, as well as on vision and language problems. LENS can be applied to any off-the-shelf LLM and we find that the LLMs with LENS perform highly competitively with much bigger and much more sophisticated systems, without any multimodal training whatsoever. We open-source our code at https://github.com/ContextualAI/lens and provide an interactive demo.
PDF285December 15, 2024