Proprietà intriganti dei modelli di linguaggio e visione di grandi dimensioni
Intriguing Properties of Large Language and Vision Models
October 7, 2024
Autori: Young-Jun Lee, Byungsoo Ko, Han-Gyu Kim, Yechan Hwang, Ho-Jin Choi
cs.AI
Abstract
Recentemente, i modelli di linguaggio e visione di grandi dimensioni (LLVMs) hanno ricevuto notevole attenzione e sforzi di sviluppo a causa della loro notevole capacità di generalizzazione su una vasta gamma di compiti che richiedono abilità di percezione e cognitive. Un fattore chiave dietro al loro successo è la loro architettura semplice, che consiste in un codificatore di visione, un proiettore e un grande modello di linguaggio (LLM). Nonostante i loro successi nei compiti avanzati di ragionamento, le loro prestazioni nei compiti fondamentali legati alla percezione (ad esempio, MMVP) rimangono sorprendentemente basse. Questa discrepanza solleva la questione su come i LLVMs percepiscono veramente le immagini e sfruttano i vantaggi del codificatore di visione. Per affrontare questo problema, indaghiamo sistematicamente questa questione riguardo a diversi aspetti: invarianza alle permutazioni, robustezza, ragionamento matematico, conservazione e importanza dell'allineamento, valutando le famiglie di LLVM più comuni (cioè, LLaVA) su 10 benchmark di valutazione. I nostri ampi esperimenti rivelano diverse proprietà intriganti dei LLVM attuali: (1) elaborano internamente l'immagine in modo globale, anche quando l'ordine delle sequenze di patch visive è casualmente permutato; (2) a volte sono in grado di risolvere problemi matematici senza percepire completamente informazioni numeriche dettagliate; (3) l'allineamento cross-modale è sovradattato a compiti di ragionamento complessi, causando loro di perdere alcune delle capacità percettive originali del loro codificatore di visione; (4) lo spazio di rappresentazione nei livelli inferiori (<25%) gioca un ruolo cruciale nel determinare le prestazioni e migliorare la comprensione visiva. Infine, basandoci sulle osservazioni precedenti, suggeriamo potenziali direzioni future per la costruzione di migliori LLVMs e la creazione di benchmark di valutazione più impegnativi.
English
Recently, large language and vision models (LLVMs) have received significant
attention and development efforts due to their remarkable generalization
performance across a wide range of tasks requiring perception and cognitive
abilities. A key factor behind their success is their simple architecture,
which consists of a vision encoder, a projector, and a large language model
(LLM). Despite their achievements in advanced reasoning tasks, their
performance on fundamental perception-related tasks (e.g., MMVP) remains
surprisingly low. This discrepancy raises the question of how LLVMs truly
perceive images and exploit the advantages of the vision encoder. To address
this, we systematically investigate this question regarding several aspects:
permutation invariance, robustness, math reasoning, alignment preserving and
importance, by evaluating the most common LLVM's families (i.e., LLaVA) across
10 evaluation benchmarks. Our extensive experiments reveal several intriguing
properties of current LLVMs: (1) they internally process the image in a global
manner, even when the order of visual patch sequences is randomly permuted; (2)
they are sometimes able to solve math problems without fully perceiving
detailed numerical information; (3) the cross-modal alignment is overfitted to
complex reasoning tasks, thereby, causing them to lose some of the original
perceptual capabilities of their vision encoder; (4) the representation space
in the lower layers (<25%) plays a crucial role in determining performance and
enhancing visual understanding. Lastly, based on the above observations, we
suggest potential future directions for building better LLVMs and constructing
more challenging evaluation benchmarks.