ChatPaper.aiChatPaper

Teilen Vision- und Sprachmodelle Konzepte? Eine Studie zur Ausrichtung im Vektorraum

Do Vision and Language Models Share Concepts? A Vector Space Alignment Study

February 13, 2023
Autoren: Jiaang Li, Yova Kementchedjhieva, Constanza Fierro, Anders Søgaard
cs.AI

Zusammenfassung

Groß angelegte vortrainierte Sprachmodelle (LMs) sollen angeblich "die Fähigkeit fehlen, Äußerungen mit der Welt zu verbinden" (Bender und Koller, 2020), da sie keine "mentalen Modelle der Welt" haben (Mitchell und Krakauer, 2023). Wenn dem so ist, würde man erwarten, dass LM-Repräsentationen nicht mit den Repräsentationen verbunden sind, die durch Bildmodelle erzeugt werden. Wir präsentieren eine empirische Bewertung über vier Familien von LMs (BERT, GPT-2, OPT und LLaMA-2) und drei Bildmodellarchitekturen (ResNet, SegFormer und MAE). Unsere Experimente zeigen, dass LMs teilweise gegen Repräsentationen konvergieren, die isomorph zu denen von Bildmodellen sind, unter Berücksichtigung von Dispersion, Polysemie und Häufigkeit. Dies hat wichtige Auswirkungen sowohl auf die multimodale Verarbeitung als auch auf die Debatte über das Verständnis von LMs (Mitchell und Krakauer, 2023).
English
Large-scale pretrained language models (LMs) are said to ``lack the ability to connect utterances to the world'' (Bender and Koller, 2020), because they do not have ``mental models of the world' '(Mitchell and Krakauer, 2023). If so, one would expect LM representations to be unrelated to representations induced by vision models. We present an empirical evaluation across four families of LMs (BERT, GPT-2, OPT and LLaMA-2) and three vision model architectures (ResNet, SegFormer, and MAE). Our experiments show that LMs partially converge towards representations isomorphic to those of vision models, subject to dispersion, polysemy and frequency. This has important implications for both multi-modal processing and the LM understanding debate (Mitchell and Krakauer, 2023).

Summary

AI-Generated Summary

PDF93November 28, 2024