Skalierungsgesetze für Sprachkodierungsmodelle in der fMRT
Scaling laws for language encoding models in fMRI
May 19, 2023
Autoren: Richard Antonello, Aditya Vaidya, Alexander G. Huth
cs.AI
Zusammenfassung
Repräsentationen aus unidirektionalen Sprachmodellen auf Transformer-Basis sind bekannt dafür, effektiv die Gehirnreaktionen auf natürliche Sprache vorherzusagen. Die meisten Studien, die Sprachmodelle mit Gehirnaktivitäten verglichen haben, verwendeten jedoch GPT-2 oder ähnlich große Sprachmodelle. Hier haben wir untersucht, ob größere Open-Source-Modelle wie die aus den OPT- und LLaMA-Familien besser darin sind, Gehirnreaktionen, die mittels fMRT aufgezeichnet wurden, vorherzusagen. In Übereinstimmung mit Skalierungsergebnissen aus anderen Kontexten fanden wir, dass die Vorhersageleistung des Gehirns log-linear mit der Modellgröße von 125M bis zu 30B Parametern skaliert, mit einer Steigerung der Encodierungsleistung um ~15 %, gemessen an der Korrelation mit einem zurückgehaltenen Testdatensatz über 3 Probanden. Ein ähnliches log-lineares Verhalten wurde beobachtet, wenn die Größe des fMRT-Trainingsdatensatzes skaliert wurde. Wir haben auch die Skalierung für akustische Encodierungsmodelle charakterisiert, die HuBERT, WavLM und Whisper verwenden, und vergleichbare Verbesserungen mit der Modellgröße festgestellt. Eine Rauschdeckenanalyse dieser großen, leistungsstarken Encodierungsmodelle zeigte, dass die Leistung nahe an das theoretische Maximum für Gehirnregionen wie den Precuneus und den höheren auditorischen Kortex heranreicht. Diese Ergebnisse deuten darauf hin, dass eine Steigerung der Skalierung sowohl bei Modellen als auch bei Daten äußerst effektive Modelle der Sprachverarbeitung im Gehirn hervorbringen wird, was ein besseres wissenschaftliches Verständnis sowie Anwendungen wie das Decodieren ermöglicht.
English
Representations from transformer-based unidirectional language models are
known to be effective at predicting brain responses to natural language.
However, most studies comparing language models to brains have used GPT-2 or
similarly sized language models. Here we tested whether larger open-source
models such as those from the OPT and LLaMA families are better at predicting
brain responses recorded using fMRI. Mirroring scaling results from other
contexts, we found that brain prediction performance scales log-linearly with
model size from 125M to 30B parameter models, with ~15% increased encoding
performance as measured by correlation with a held-out test set across 3
subjects. Similar log-linear behavior was observed when scaling the size of the
fMRI training set. We also characterized scaling for acoustic encoding models
that use HuBERT, WavLM, and Whisper, and we found comparable improvements with
model size. A noise ceiling analysis of these large, high-performance encoding
models showed that performance is nearing the theoretical maximum for brain
areas such as the precuneus and higher auditory cortex. These results suggest
that increasing scale in both models and data will yield incredibly effective
models of language processing in the brain, enabling better scientific
understanding as well as applications such as decoding.Summary
AI-Generated Summary