Hacia Modelos de Lenguaje Que Pueden Ver: Visión por Computadora a Través del LENTE del Lenguaje Natural

Resumen

Proponemos LENS, un enfoque modular para abordar problemas de visión por computadora aprovechando el poder de los modelos de lenguaje grandes (LLMs, por sus siglas en inglés). Nuestro sistema utiliza un modelo de lenguaje para razonar sobre las salidas de un conjunto de módulos de visión independientes y altamente descriptivos que proporcionan información exhaustiva sobre una imagen. Evaluamos el enfoque en entornos puros de visión por computadora, como el reconocimiento de objetos en escenarios de cero y pocos ejemplos, así como en problemas que combinan visión y lenguaje. LENS puede aplicarse a cualquier LLM disponible comercialmente y encontramos que los LLMs con LENS tienen un rendimiento altamente competitivo en comparación con sistemas mucho más grandes y sofisticados, sin necesidad de ningún entrenamiento multimodal. Hemos liberado nuestro código en https://github.com/ContextualAI/lens y proporcionamos una demostración interactiva.

English

We propose LENS, a modular approach for tackling computer vision problems by leveraging the power of large language models (LLMs). Our system uses a language model to reason over outputs from a set of independent and highly descriptive vision modules that provide exhaustive information about an image. We evaluate the approach on pure computer vision settings such as zero- and few-shot object recognition, as well as on vision and language problems. LENS can be applied to any off-the-shelf LLM and we find that the LLMs with LENS perform highly competitively with much bigger and much more sophisticated systems, without any multimodal training whatsoever. We open-source our code at https://github.com/ContextualAI/lens and provide an interactive demo.

Hacia Modelos de Lenguaje Que Pueden Ver: Visión por Computadora a Través del LENTE del Lenguaje Natural

Towards Language Models That Can See: Computer Vision Through the LENS of Natural Language

Resumen

Support