Hacia Modelos de Lenguaje Que Pueden Ver: Visión por Computadora a Través del LENTE del Lenguaje Natural
Towards Language Models That Can See: Computer Vision Through the LENS of Natural Language
June 28, 2023
Autores: William Berrios, Gautam Mittal, Tristan Thrush, Douwe Kiela, Amanpreet Singh
cs.AI
Resumen
Proponemos LENS, un enfoque modular para abordar problemas de visión por computadora aprovechando el poder de los modelos de lenguaje grandes (LLMs, por sus siglas en inglés). Nuestro sistema utiliza un modelo de lenguaje para razonar sobre las salidas de un conjunto de módulos de visión independientes y altamente descriptivos que proporcionan información exhaustiva sobre una imagen. Evaluamos el enfoque en entornos puros de visión por computadora, como el reconocimiento de objetos en escenarios de cero y pocos ejemplos, así como en problemas que combinan visión y lenguaje. LENS puede aplicarse a cualquier LLM disponible comercialmente y encontramos que los LLMs con LENS tienen un rendimiento altamente competitivo en comparación con sistemas mucho más grandes y sofisticados, sin necesidad de ningún entrenamiento multimodal. Hemos liberado nuestro código en https://github.com/ContextualAI/lens y proporcionamos una demostración interactiva.
English
We propose LENS, a modular approach for tackling computer vision problems by
leveraging the power of large language models (LLMs). Our system uses a
language model to reason over outputs from a set of independent and highly
descriptive vision modules that provide exhaustive information about an image.
We evaluate the approach on pure computer vision settings such as zero- and
few-shot object recognition, as well as on vision and language problems. LENS
can be applied to any off-the-shelf LLM and we find that the LLMs with LENS
perform highly competitively with much bigger and much more sophisticated
systems, without any multimodal training whatsoever. We open-source our code at
https://github.com/ContextualAI/lens and provide an interactive demo.