Leggi di scala per i modelli di codifica del linguaggio nella risonanza magnetica funzionale (fMRI)

Abstract

Le rappresentazioni ottenute da modelli linguistici unidirezionali basati su trasformatori sono note per essere efficaci nel prevedere le risposte cerebrali al linguaggio naturale. Tuttavia, la maggior parte degli studi che confrontano i modelli linguistici con il cervello hanno utilizzato GPT-2 o modelli linguistici di dimensioni simili. In questo studio, abbiamo testato se modelli open-source più grandi, come quelli delle famiglie OPT e LLaMA, siano migliori nel prevedere le risposte cerebrali registrate tramite fMRI. Rispetto ai risultati di scalabilità in altri contesti, abbiamo riscontrato che le prestazioni nella previsione cerebrale scalano in modo log-lineare con la dimensione del modello, da modelli con 125M a 30B di parametri, con un aumento delle prestazioni di codifica di circa il 15%, misurato attraverso la correlazione con un set di test separato su 3 soggetti. Un comportamento log-lineare simile è stato osservato quando si è scalata la dimensione del set di training fMRI. Abbiamo inoltre caratterizzato la scalabilità per i modelli di codifica acustica che utilizzano HuBERT, WavLM e Whisper, riscontrando miglioramenti comparabili con l'aumento della dimensione del modello. Un'analisi del rumore di fondo per questi modelli di codifica grandi e ad alte prestazioni ha mostrato che le prestazioni si stanno avvicinando al massimo teorico per aree cerebrali come il precuneo e la corteccia uditiva superiore. Questi risultati suggeriscono che l'aumento della scala sia nei modelli che nei dati produrrà modelli estremamente efficaci per l'elaborazione del linguaggio nel cervello, consentendo una migliore comprensione scientifica nonché applicazioni come il decoding.

English

Representations from transformer-based unidirectional language models are known to be effective at predicting brain responses to natural language. However, most studies comparing language models to brains have used GPT-2 or similarly sized language models. Here we tested whether larger open-source models such as those from the OPT and LLaMA families are better at predicting brain responses recorded using fMRI. Mirroring scaling results from other contexts, we found that brain prediction performance scales log-linearly with model size from 125M to 30B parameter models, with ~15% increased encoding performance as measured by correlation with a held-out test set across 3 subjects. Similar log-linear behavior was observed when scaling the size of the fMRI training set. We also characterized scaling for acoustic encoding models that use HuBERT, WavLM, and Whisper, and we found comparable improvements with model size. A noise ceiling analysis of these large, high-performance encoding models showed that performance is nearing the theoretical maximum for brain areas such as the precuneus and higher auditory cortex. These results suggest that increasing scale in both models and data will yield incredibly effective models of language processing in the brain, enabling better scientific understanding as well as applications such as decoding.

Leggi di scala per i modelli di codifica del linguaggio nella risonanza magnetica funzionale (fMRI)

Scaling laws for language encoding models in fMRI

Abstract

Support