К языковым моделям, которые могут видеть: компьютерное зрение через призму естественного языка
Towards Language Models That Can See: Computer Vision Through the LENS of Natural Language
June 28, 2023
Авторы: William Berrios, Gautam Mittal, Tristan Thrush, Douwe Kiela, Amanpreet Singh
cs.AI
Аннотация
Мы представляем LENS — модульный подход для решения задач компьютерного зрения, который использует возможности крупных языковых моделей (LLM). Наша система применяет языковую модель для анализа выходных данных набора независимых и высокоинформативных модулей зрения, предоставляющих исчерпывающую информацию об изображении. Мы оцениваем подход в чисто компьютерных задачах, таких как распознавание объектов в условиях нулевого и малого числа примеров, а также в задачах, сочетающих зрение и язык. LENS может быть применен к любой готовой LLM, и мы обнаруживаем, что LLM с использованием LENS демонстрируют высокую конкурентоспособность по сравнению с гораздо более крупными и сложными системами, при этом не требуя никакого мультимодального обучения. Мы открываем исходный код по адресу https://github.com/ContextualAI/lens и предоставляем интерактивную демонстрацию.
English
We propose LENS, a modular approach for tackling computer vision problems by
leveraging the power of large language models (LLMs). Our system uses a
language model to reason over outputs from a set of independent and highly
descriptive vision modules that provide exhaustive information about an image.
We evaluate the approach on pure computer vision settings such as zero- and
few-shot object recognition, as well as on vision and language problems. LENS
can be applied to any off-the-shelf LLM and we find that the LLMs with LENS
perform highly competitively with much bigger and much more sophisticated
systems, without any multimodal training whatsoever. We open-source our code at
https://github.com/ContextualAI/lens and provide an interactive demo.