Em Direção a Modelos de Linguagem Que Podem Ver: Visão Computacional Através da LENTE da Linguagem Natural

Resumo

Propomos o LENS, uma abordagem modular para resolver problemas de visão computacional ao aproveitar o poder de grandes modelos de linguagem (LLMs). Nosso sistema utiliza um modelo de linguagem para raciocinar sobre as saídas de um conjunto de módulos de visão independentes e altamente descritivos que fornecem informações exaustivas sobre uma imagem. Avaliamos a abordagem em cenários puros de visão computacional, como reconhecimento de objetos em zero-shot e few-shot, bem como em problemas que envolvem visão e linguagem. O LENS pode ser aplicado a qualquer LLM disponível no mercado, e descobrimos que os LLMs com LENS têm um desempenho altamente competitivo em comparação com sistemas muito maiores e mais sofisticados, sem qualquer treinamento multimodal. Disponibilizamos nosso código em https://github.com/ContextualAI/lens e fornecemos uma demonstração interativa.

English

We propose LENS, a modular approach for tackling computer vision problems by leveraging the power of large language models (LLMs). Our system uses a language model to reason over outputs from a set of independent and highly descriptive vision modules that provide exhaustive information about an image. We evaluate the approach on pure computer vision settings such as zero- and few-shot object recognition, as well as on vision and language problems. LENS can be applied to any off-the-shelf LLM and we find that the LLMs with LENS perform highly competitively with much bigger and much more sophisticated systems, without any multimodal training whatsoever. We open-source our code at https://github.com/ContextualAI/lens and provide an interactive demo.

Em Direção a Modelos de Linguagem Que Podem Ver: Visão Computacional Através da LENTE da Linguagem Natural

Towards Language Models That Can See: Computer Vision Through the LENS of Natural Language

Resumo

Support