ChatPaper.aiChatPaper

Vers des modèles de langage capables de voir : la vision par ordinateur à travers le PRISME du langage naturel

Towards Language Models That Can See: Computer Vision Through the LENS of Natural Language

June 28, 2023
Auteurs: William Berrios, Gautam Mittal, Tristan Thrush, Douwe Kiela, Amanpreet Singh
cs.AI

Résumé

Nous proposons LENS, une approche modulaire pour résoudre les problèmes de vision par ordinateur en exploitant la puissance des grands modèles de langage (LLM). Notre système utilise un modèle de langage pour raisonner sur les sorties d'un ensemble de modules visuels indépendants et hautement descriptifs qui fournissent des informations exhaustives sur une image. Nous évaluons cette approche dans des contextes purs de vision par ordinateur, tels que la reconnaissance d'objets en zero-shot et few-shot, ainsi que sur des problèmes combinant vision et langage. LENS peut être appliqué à n'importe quel LLM prêt à l'emploi, et nous constatons que les LLMs équipés de LENS rivalisent de manière très compétitive avec des systèmes beaucoup plus volumineux et sophistiqués, sans aucun entraînement multimodal. Nous mettons notre code en open-source à l'adresse https://github.com/ContextualAI/lens et fournissons une démonstration interactive.
English
We propose LENS, a modular approach for tackling computer vision problems by leveraging the power of large language models (LLMs). Our system uses a language model to reason over outputs from a set of independent and highly descriptive vision modules that provide exhaustive information about an image. We evaluate the approach on pure computer vision settings such as zero- and few-shot object recognition, as well as on vision and language problems. LENS can be applied to any off-the-shelf LLM and we find that the LLMs with LENS perform highly competitively with much bigger and much more sophisticated systems, without any multimodal training whatsoever. We open-source our code at https://github.com/ContextualAI/lens and provide an interactive demo.
PDF285December 15, 2024