Leis de escalonamento para modelos de codificação de linguagem em fMRI

Resumo

Representações de modelos de linguagem unidirecionais baseados em transformadores são conhecidas por serem eficazes na previsão de respostas cerebrais à linguagem natural. No entanto, a maioria dos estudos que comparam modelos de linguagem ao cérebro utilizou GPT-2 ou modelos de tamanho semelhante. Aqui, testamos se modelos maiores de código aberto, como os das famílias OPT e LLaMA, são melhores na previsão de respostas cerebrais registradas por meio de fMRI. Refletindo resultados de escalonamento em outros contextos, descobrimos que o desempenho na previsão cerebral escala log-linearmente com o tamanho do modelo, de 125M a 30B de parâmetros, com um aumento de ~15% no desempenho de codificação, medido pela correlação com um conjunto de teste retido em 3 indivíduos. Um comportamento log-linear semelhante foi observado ao escalonar o tamanho do conjunto de treinamento de fMRI. Também caracterizamos o escalonamento para modelos de codificação acústica que utilizam HuBERT, WavLM e Whisper, e encontramos melhorias comparáveis com o tamanho do modelo. Uma análise de teto de ruído desses modelos de codificação grandes e de alto desempenho mostrou que o desempenho está se aproximando do máximo teórico para áreas cerebrais como o precuneus e o córtex auditivo superior. Esses resultados sugerem que o aumento de escala tanto em modelos quanto em dados produzirá modelos incrivelmente eficazes de processamento de linguagem no cérebro, permitindo um melhor entendimento científico, bem como aplicações como a decodificação.

English

Representations from transformer-based unidirectional language models are known to be effective at predicting brain responses to natural language. However, most studies comparing language models to brains have used GPT-2 or similarly sized language models. Here we tested whether larger open-source models such as those from the OPT and LLaMA families are better at predicting brain responses recorded using fMRI. Mirroring scaling results from other contexts, we found that brain prediction performance scales log-linearly with model size from 125M to 30B parameter models, with ~15% increased encoding performance as measured by correlation with a held-out test set across 3 subjects. Similar log-linear behavior was observed when scaling the size of the fMRI training set. We also characterized scaling for acoustic encoding models that use HuBERT, WavLM, and Whisper, and we found comparable improvements with model size. A noise ceiling analysis of these large, high-performance encoding models showed that performance is nearing the theoretical maximum for brain areas such as the precuneus and higher auditory cortex. These results suggest that increasing scale in both models and data will yield incredibly effective models of language processing in the brain, enabling better scientific understanding as well as applications such as decoding.

Leis de escalonamento para modelos de codificação de linguagem em fMRI

Scaling laws for language encoding models in fMRI

Resumo

Support