Leis de escalonamento para modelos de codificação de linguagem em fMRI
Scaling laws for language encoding models in fMRI
May 19, 2023
Autores: Richard Antonello, Aditya Vaidya, Alexander G. Huth
cs.AI
Resumo
Representações de modelos de linguagem unidirecionais baseados em transformadores são conhecidas por serem eficazes na previsão de respostas cerebrais à linguagem natural. No entanto, a maioria dos estudos que comparam modelos de linguagem ao cérebro utilizou GPT-2 ou modelos de tamanho semelhante. Aqui, testamos se modelos maiores de código aberto, como os das famílias OPT e LLaMA, são melhores na previsão de respostas cerebrais registradas por meio de fMRI. Refletindo resultados de escalonamento em outros contextos, descobrimos que o desempenho na previsão cerebral escala log-linearmente com o tamanho do modelo, de 125M a 30B de parâmetros, com um aumento de ~15% no desempenho de codificação, medido pela correlação com um conjunto de teste retido em 3 indivíduos. Um comportamento log-linear semelhante foi observado ao escalonar o tamanho do conjunto de treinamento de fMRI. Também caracterizamos o escalonamento para modelos de codificação acústica que utilizam HuBERT, WavLM e Whisper, e encontramos melhorias comparáveis com o tamanho do modelo. Uma análise de teto de ruído desses modelos de codificação grandes e de alto desempenho mostrou que o desempenho está se aproximando do máximo teórico para áreas cerebrais como o precuneus e o córtex auditivo superior. Esses resultados sugerem que o aumento de escala tanto em modelos quanto em dados produzirá modelos incrivelmente eficazes de processamento de linguagem no cérebro, permitindo um melhor entendimento científico, bem como aplicações como a decodificação.
English
Representations from transformer-based unidirectional language models are
known to be effective at predicting brain responses to natural language.
However, most studies comparing language models to brains have used GPT-2 or
similarly sized language models. Here we tested whether larger open-source
models such as those from the OPT and LLaMA families are better at predicting
brain responses recorded using fMRI. Mirroring scaling results from other
contexts, we found that brain prediction performance scales log-linearly with
model size from 125M to 30B parameter models, with ~15% increased encoding
performance as measured by correlation with a held-out test set across 3
subjects. Similar log-linear behavior was observed when scaling the size of the
fMRI training set. We also characterized scaling for acoustic encoding models
that use HuBERT, WavLM, and Whisper, and we found comparable improvements with
model size. A noise ceiling analysis of these large, high-performance encoding
models showed that performance is nearing the theoretical maximum for brain
areas such as the precuneus and higher auditory cortex. These results suggest
that increasing scale in both models and data will yield incredibly effective
models of language processing in the brain, enabling better scientific
understanding as well as applications such as decoding.