Un controllo della vista per i modelli linguistici

Abstract

Cosa insegna ai grandi modelli linguistici (LLM) imparare a modellare le relazioni tra stringhe riguardo al mondo visivo? Valutiamo sistematicamente le capacità degli LLM di generare e riconoscere una varietà di concetti visivi di complessità crescente, per poi dimostrare come un sistema preliminare di apprendimento di rappresentazioni visive possa essere addestrato utilizzando modelli di testo. Poiché i modelli linguistici non sono in grado di elaborare o produrre informazioni visive sotto forma di pixel, nel nostro studio utilizziamo il codice per rappresentare le immagini. Sebbene le immagini generate dagli LLM non assomiglino a immagini naturali, i risultati sulla generazione di immagini e la capacità dei modelli di correggere queste immagini generate indicano che una modellazione precisa delle stringhe può insegnare ai modelli linguistici numerosi aspetti del mondo visivo. Inoltre, esperimenti sull'apprendimento auto-supervisionato di rappresentazioni visive, utilizzando immagini generate con modelli di testo, evidenziano il potenziale di addestrare modelli visivi in grado di effettuare valutazioni semantiche su immagini naturali utilizzando esclusivamente LLM.

English

What does learning to model relationships between strings teach large language models (LLMs) about the visual world? We systematically evaluate LLMs' abilities to generate and recognize an assortment of visual concepts of increasing complexity and then demonstrate how a preliminary visual representation learning system can be trained using models of text. As language models lack the ability to consume or output visual information as pixels, we use code to represent images in our study. Although LLM-generated images do not look like natural images, results on image generation and the ability of models to correct these generated images indicate that precise modeling of strings can teach language models about numerous aspects of the visual world. Furthermore, experiments on self-supervised visual representation learning, utilizing images generated with text models, highlight the potential to train vision models capable of making semantic assessments of natural images using just LLMs.

Un controllo della vista per i modelli linguistici

A Vision Check-up for Language Models

Abstract

Support