ChatPaper.aiChatPaper

Um Check-up Visual para Modelos de Linguagem

A Vision Check-up for Language Models

January 3, 2024
Autores: Pratyusha Sharma, Tamar Rott Shaham, Manel Baradad, Stephanie Fu, Adrian Rodriguez-Munoz, Shivam Duggal, Phillip Isola, Antonio Torralba
cs.AI

Resumo

O que aprender a modelar relações entre strings ensina aos grandes modelos de linguagem (LLMs) sobre o mundo visual? Avaliamos sistematicamente as habilidades dos LLMs para gerar e reconhecer uma variedade de conceitos visuais de complexidade crescente e, em seguida, demonstramos como um sistema preliminar de aprendizado de representação visual pode ser treinado usando modelos de texto. Como os modelos de linguagem não têm a capacidade de consumir ou produzir informações visuais em pixels, usamos código para representar imagens em nosso estudo. Embora as imagens geradas por LLMs não se pareçam com imagens naturais, os resultados na geração de imagens e a capacidade dos modelos de corrigir essas imagens geradas indicam que a modelagem precisa de strings pode ensinar aos modelos de linguagem diversos aspectos do mundo visual. Além disso, experimentos sobre aprendizado autossupervisionado de representação visual, utilizando imagens geradas com modelos de texto, destacam o potencial de treinar modelos de visão capazes de fazer avaliações semânticas de imagens naturais usando apenas LLMs.
English
What does learning to model relationships between strings teach large language models (LLMs) about the visual world? We systematically evaluate LLMs' abilities to generate and recognize an assortment of visual concepts of increasing complexity and then demonstrate how a preliminary visual representation learning system can be trained using models of text. As language models lack the ability to consume or output visual information as pixels, we use code to represent images in our study. Although LLM-generated images do not look like natural images, results on image generation and the ability of models to correct these generated images indicate that precise modeling of strings can teach language models about numerous aspects of the visual world. Furthermore, experiments on self-supervised visual representation learning, utilizing images generated with text models, highlight the potential to train vision models capable of making semantic assessments of natural images using just LLMs.
PDF110December 15, 2024