Un controllo della vista per i modelli linguistici
A Vision Check-up for Language Models
January 3, 2024
Autori: Pratyusha Sharma, Tamar Rott Shaham, Manel Baradad, Stephanie Fu, Adrian Rodriguez-Munoz, Shivam Duggal, Phillip Isola, Antonio Torralba
cs.AI
Abstract
Cosa insegna ai grandi modelli linguistici (LLM) imparare a modellare le relazioni tra stringhe riguardo al mondo visivo? Valutiamo sistematicamente le capacità degli LLM di generare e riconoscere una varietà di concetti visivi di complessità crescente, per poi dimostrare come un sistema preliminare di apprendimento di rappresentazioni visive possa essere addestrato utilizzando modelli di testo. Poiché i modelli linguistici non sono in grado di elaborare o produrre informazioni visive sotto forma di pixel, nel nostro studio utilizziamo il codice per rappresentare le immagini. Sebbene le immagini generate dagli LLM non assomiglino a immagini naturali, i risultati sulla generazione di immagini e la capacità dei modelli di correggere queste immagini generate indicano che una modellazione precisa delle stringhe può insegnare ai modelli linguistici numerosi aspetti del mondo visivo. Inoltre, esperimenti sull'apprendimento auto-supervisionato di rappresentazioni visive, utilizzando immagini generate con modelli di testo, evidenziano il potenziale di addestrare modelli visivi in grado di effettuare valutazioni semantiche su immagini naturali utilizzando esclusivamente LLM.
English
What does learning to model relationships between strings teach large
language models (LLMs) about the visual world? We systematically evaluate LLMs'
abilities to generate and recognize an assortment of visual concepts of
increasing complexity and then demonstrate how a preliminary visual
representation learning system can be trained using models of text. As language
models lack the ability to consume or output visual information as pixels, we
use code to represent images in our study. Although LLM-generated images do not
look like natural images, results on image generation and the ability of models
to correct these generated images indicate that precise modeling of strings can
teach language models about numerous aspects of the visual world. Furthermore,
experiments on self-supervised visual representation learning, utilizing images
generated with text models, highlight the potential to train vision models
capable of making semantic assessments of natural images using just LLMs.