Schaalwetten voor taalcoderingmodellen in fMRI

Samenvatting

Representaties van transformer-gebaseerde unidirectionele taalmodelen staan bekend als effectief in het voorspellen van hersenreacties op natuurlijke taal. De meeste studies die taalmodelen vergelijken met hersenen hebben echter GPT-2 of vergelijkbaar grote taalmodelen gebruikt. Hier hebben we getest of grotere open-source modellen, zoals die uit de OPT- en LLaMA-families, beter zijn in het voorspellen van hersenreacties gemeten met fMRI. In lijn met schaalresultaten uit andere contexten, vonden we dat de voorspellingsprestatie van de hersenen log-lineair schaalt met de grootte van het model, van modellen met 125M tot 30B parameters, met een ~15% verbeterde encoderingsprestatie gemeten aan de hand van correlatie met een afgezonderde testset over 3 proefpersonen. Een vergelijkbaar log-lineair gedrag werd waargenomen bij het schalen van de grootte van de fMRI-trainingsset. We hebben ook de schaling gekarakteriseerd voor akoestische encoderingsmodellen die gebruikmaken van HuBERT, WavLM en Whisper, en vonden vergelijkbare verbeteringen met de grootte van het model. Een ruisplafondanalyse van deze grote, hoogpresterende encoderingsmodellen toonde aan dat de prestaties het theoretische maximum naderen voor hersengebieden zoals de precuneus en de hogere auditieve cortex. Deze resultaten suggereren dat het vergroten van de schaal van zowel modellen als data uiterst effectieve modellen van taalverwerking in de hersenen zal opleveren, wat een beter wetenschappelijk begrip mogelijk maakt, evenals toepassingen zoals decodering.

English

Representations from transformer-based unidirectional language models are known to be effective at predicting brain responses to natural language. However, most studies comparing language models to brains have used GPT-2 or similarly sized language models. Here we tested whether larger open-source models such as those from the OPT and LLaMA families are better at predicting brain responses recorded using fMRI. Mirroring scaling results from other contexts, we found that brain prediction performance scales log-linearly with model size from 125M to 30B parameter models, with ~15% increased encoding performance as measured by correlation with a held-out test set across 3 subjects. Similar log-linear behavior was observed when scaling the size of the fMRI training set. We also characterized scaling for acoustic encoding models that use HuBERT, WavLM, and Whisper, and we found comparable improvements with model size. A noise ceiling analysis of these large, high-performance encoding models showed that performance is nearing the theoretical maximum for brain areas such as the precuneus and higher auditory cortex. These results suggest that increasing scale in both models and data will yield incredibly effective models of language processing in the brain, enabling better scientific understanding as well as applications such as decoding.

Schaalwetten voor taalcoderingmodellen in fMRI

Scaling laws for language encoding models in fMRI

Samenvatting

Support