ChatPaper.aiChatPaper

Ein Sehtest für Sprachmodelle

A Vision Check-up for Language Models

January 3, 2024
Autoren: Pratyusha Sharma, Tamar Rott Shaham, Manel Baradad, Stephanie Fu, Adrian Rodriguez-Munoz, Shivam Duggal, Phillip Isola, Antonio Torralba
cs.AI

Zusammenfassung

Was bringt es großen Sprachmodellen (LLMs) bei, Beziehungen zwischen Zeichenketten zu modellieren, wenn es um die visuelle Welt geht? Wir evaluieren systematisch die Fähigkeiten von LLMs, eine Vielzahl visueller Konzepte mit zunehmender Komplexität zu generieren und zu erkennen, und zeigen dann, wie ein vorläufiges System zum Erlernen visueller Repräsentationen mithilfe von Textmodellen trainiert werden kann. Da Sprachmodelle nicht in der Lage sind, visuelle Informationen als Pixel aufzunehmen oder auszugeben, verwenden wir in unserer Studie Code, um Bilder darzustellen. Obwohl die von LLMs generierten Bilder nicht wie natürliche Bilder aussehen, deuten die Ergebnisse zur Bildgenerierung und die Fähigkeit der Modelle, diese generierten Bilder zu korrigieren, darauf hin, dass die präzise Modellierung von Zeichenketten Sprachmodellen zahlreiche Aspekte der visuellen Welt vermitteln kann. Darüber hinaus zeigen Experimente zum selbstüberwachten Erlernen visueller Repräsentationen, bei denen Bilder mithilfe von Textmodellen generiert werden, das Potenzial auf, Vision-Modelle zu trainieren, die in der Lage sind, semantische Bewertungen natürlicher Bilder allein mithilfe von LLMs vorzunehmen.
English
What does learning to model relationships between strings teach large language models (LLMs) about the visual world? We systematically evaluate LLMs' abilities to generate and recognize an assortment of visual concepts of increasing complexity and then demonstrate how a preliminary visual representation learning system can be trained using models of text. As language models lack the ability to consume or output visual information as pixels, we use code to represent images in our study. Although LLM-generated images do not look like natural images, results on image generation and the ability of models to correct these generated images indicate that precise modeling of strings can teach language models about numerous aspects of the visual world. Furthermore, experiments on self-supervised visual representation learning, utilizing images generated with text models, highlight the potential to train vision models capable of making semantic assessments of natural images using just LLMs.
PDF110December 15, 2024