ChatPaper.aiChatPaper

Lois d'échelle pour les modèles d'encodage du langage en IRMf

Scaling laws for language encoding models in fMRI

May 19, 2023
Auteurs: Richard Antonello, Aditya Vaidya, Alexander G. Huth
cs.AI

Résumé

Les représentations issues de modèles de langage unidirectionnels basés sur des transformateurs sont reconnues pour leur efficacité à prédire les réponses cérébrales au langage naturel. Cependant, la plupart des études comparant les modèles de langage au cerveau ont utilisé GPT-2 ou des modèles de taille similaire. Ici, nous avons testé si des modèles open-source plus volumineux, tels que ceux des familles OPT et LLaMA, sont meilleurs pour prédire les réponses cérébrales enregistrées par IRMf. Reflétant les résultats de mise à l'échelle observés dans d'autres contextes, nous avons constaté que la performance de prédiction cérébrale évolue de manière log-linéaire avec la taille du modèle, allant de 125 millions à 30 milliards de paramètres, avec une amélioration d'environ 15 % des performances d'encodage, mesurée par la corrélation avec un ensemble de test réservé sur 3 sujets. Un comportement log-linéaire similaire a été observé lors de l'augmentation de la taille de l'ensemble d'entraînement en IRMf. Nous avons également caractérisé la mise à l'échelle pour les modèles d'encodage acoustique utilisant HuBERT, WavLM et Whisper, et nous avons constaté des améliorations comparables avec la taille du modèle. Une analyse du plafond de bruit de ces modèles d'encodage volumineux et performants a montré que les performances approchent le maximum théorique pour des zones cérébrales telles que le précunéus et le cortex auditif supérieur. Ces résultats suggèrent qu'augmenter l'échelle des modèles et des données produira des modèles incroyablement efficaces du traitement du langage dans le cerveau, permettant une meilleure compréhension scientifique ainsi que des applications telles que le décodage.
English
Representations from transformer-based unidirectional language models are known to be effective at predicting brain responses to natural language. However, most studies comparing language models to brains have used GPT-2 or similarly sized language models. Here we tested whether larger open-source models such as those from the OPT and LLaMA families are better at predicting brain responses recorded using fMRI. Mirroring scaling results from other contexts, we found that brain prediction performance scales log-linearly with model size from 125M to 30B parameter models, with ~15% increased encoding performance as measured by correlation with a held-out test set across 3 subjects. Similar log-linear behavior was observed when scaling the size of the fMRI training set. We also characterized scaling for acoustic encoding models that use HuBERT, WavLM, and Whisper, and we found comparable improvements with model size. A noise ceiling analysis of these large, high-performance encoding models showed that performance is nearing the theoretical maximum for brain areas such as the precuneus and higher auditory cortex. These results suggest that increasing scale in both models and data will yield incredibly effective models of language processing in the brain, enabling better scientific understanding as well as applications such as decoding.

Summary

AI-Generated Summary

PDF10December 15, 2024