Un Examen de Visión para los Modelos de Lenguaje
A Vision Check-up for Language Models
January 3, 2024
Autores: Pratyusha Sharma, Tamar Rott Shaham, Manel Baradad, Stephanie Fu, Adrian Rodriguez-Munoz, Shivam Duggal, Phillip Isola, Antonio Torralba
cs.AI
Resumen
¿Qué enseña a los modelos de lenguaje grandes (LLMs) sobre el mundo visual el aprendizaje para modelar relaciones entre cadenas de texto? Evaluamos sistemáticamente las capacidades de los LLMs para generar y reconocer una variedad de conceptos visuales de complejidad creciente, y luego demostramos cómo se puede entrenar un sistema preliminar de aprendizaje de representaciones visuales utilizando modelos de texto. Dado que los modelos de lenguaje no tienen la capacidad de consumir o generar información visual en forma de píxeles, utilizamos código para representar imágenes en nuestro estudio. Aunque las imágenes generadas por LLMs no se asemejan a imágenes naturales, los resultados en la generación de imágenes y la capacidad de los modelos para corregir estas imágenes generadas indican que el modelado preciso de cadenas puede enseñar a los modelos de lenguaje sobre numerosos aspectos del mundo visual. Además, los experimentos en aprendizaje autosupervisado de representaciones visuales, utilizando imágenes generadas con modelos de texto, resaltan el potencial para entrenar modelos de visión capaces de realizar evaluaciones semánticas de imágenes naturales utilizando únicamente LLMs.
English
What does learning to model relationships between strings teach large
language models (LLMs) about the visual world? We systematically evaluate LLMs'
abilities to generate and recognize an assortment of visual concepts of
increasing complexity and then demonstrate how a preliminary visual
representation learning system can be trained using models of text. As language
models lack the ability to consume or output visual information as pixels, we
use code to represent images in our study. Although LLM-generated images do not
look like natural images, results on image generation and the ability of models
to correct these generated images indicate that precise modeling of strings can
teach language models about numerous aspects of the visual world. Furthermore,
experiments on self-supervised visual representation learning, utilizing images
generated with text models, highlight the potential to train vision models
capable of making semantic assessments of natural images using just LLMs.