Een Visuele Controle voor Taalmodellen
A Vision Check-up for Language Models
January 3, 2024
Auteurs: Pratyusha Sharma, Tamar Rott Shaham, Manel Baradad, Stephanie Fu, Adrian Rodriguez-Munoz, Shivam Duggal, Phillip Isola, Antonio Torralba
cs.AI
Samenvatting
Wat leert het modelleren van relaties tussen strings grote taalmodelen (LLM's) over de visuele wereld? We evalueren systematisch de vaardigheden van LLM's om een reeks visuele concepten van toenemende complexiteit te genereren en te herkennen, en demonstreren vervolgens hoe een voorlopig systeem voor het leren van visuele representaties kan worden getraind met behulp van tekstmodellen. Omdat taalmodelen niet in staat zijn visuele informatie als pixels te verwerken of uit te voeren, gebruiken we code om afbeeldingen in onze studie te representeren. Hoewel door LLM's gegenereerde afbeeldingen niet lijken op natuurlijke afbeeldingen, tonen resultaten op het gebied van beeldgeneratie en het vermogen van modellen om deze gegenereerde afbeeldingen te corrigeren aan dat het nauwkeurig modelleren van strings taalmodelen veel aspecten van de visuele wereld kan leren. Bovendien benadrukken experimenten met zelfgestuurd leren van visuele representaties, waarbij gebruik wordt gemaakt van afbeeldingen gegenereerd met tekstmodellen, het potentieel om visiemodellen te trainen die semantische beoordelingen van natuurlijke afbeeldingen kunnen maken met alleen LLM's.
English
What does learning to model relationships between strings teach large
language models (LLMs) about the visual world? We systematically evaluate LLMs'
abilities to generate and recognize an assortment of visual concepts of
increasing complexity and then demonstrate how a preliminary visual
representation learning system can be trained using models of text. As language
models lack the ability to consume or output visual information as pixels, we
use code to represent images in our study. Although LLM-generated images do not
look like natural images, results on image generation and the ability of models
to correct these generated images indicate that precise modeling of strings can
teach language models about numerous aspects of the visual world. Furthermore,
experiments on self-supervised visual representation learning, utilizing images
generated with text models, highlight the potential to train vision models
capable of making semantic assessments of natural images using just LLMs.