ChatPaper.aiChatPaper

Закономерности масштабирования для моделей кодирования языка в фМРТ

Scaling laws for language encoding models in fMRI

May 19, 2023
Авторы: Richard Antonello, Aditya Vaidya, Alexander G. Huth
cs.AI

Аннотация

Представления, полученные с помощью однонаправленных языковых моделей на основе трансформеров, известны своей эффективностью в предсказании мозговых реакций на естественный язык. Однако большинство исследований, сравнивающих языковые модели с мозгом, использовали GPT-2 или модели аналогичного размера. В данной работе мы проверили, могут ли более крупные модели с открытым исходным кодом, такие как модели из семейств OPT и LLaMA, лучше предсказывать мозговые реакции, зарегистрированные с помощью фМРТ. В соответствии с результатами масштабирования в других контекстах, мы обнаружили, что производительность предсказания мозговых реакций масштабируется логарифмически-линейно с увеличением размера модели от 125 миллионов до 30 миллиардов параметров, с увеличением производительности кодирования примерно на 15%, измеренной по корреляции с тестовым набором данных у трех испытуемых. Подобное логарифмически-линейное поведение наблюдалось и при увеличении размера обучающего набора данных фМРТ. Мы также исследовали масштабирование для моделей акустического кодирования, использующих HuBERT, WavLM и Whisper, и обнаружили сопоставимые улучшения с увеличением размера модели. Анализ шумового потолка для этих крупных высокопроизводительных моделей кодирования показал, что их производительность приближается к теоретическому максимуму для таких областей мозга, как предклинье и высшая слуховая кора. Эти результаты позволяют предположить, что увеличение масштаба как моделей, так и данных приведет к созданию чрезвычайно эффективных моделей обработки языка в мозге, что позволит достичь лучшего научного понимания, а также реализовать приложения, такие как декодирование.
English
Representations from transformer-based unidirectional language models are known to be effective at predicting brain responses to natural language. However, most studies comparing language models to brains have used GPT-2 or similarly sized language models. Here we tested whether larger open-source models such as those from the OPT and LLaMA families are better at predicting brain responses recorded using fMRI. Mirroring scaling results from other contexts, we found that brain prediction performance scales log-linearly with model size from 125M to 30B parameter models, with ~15% increased encoding performance as measured by correlation with a held-out test set across 3 subjects. Similar log-linear behavior was observed when scaling the size of the fMRI training set. We also characterized scaling for acoustic encoding models that use HuBERT, WavLM, and Whisper, and we found comparable improvements with model size. A noise ceiling analysis of these large, high-performance encoding models showed that performance is nearing the theoretical maximum for brain areas such as the precuneus and higher auditory cortex. These results suggest that increasing scale in both models and data will yield incredibly effective models of language processing in the brain, enabling better scientific understanding as well as applications such as decoding.

Summary

AI-Generated Summary

PDF10December 15, 2024