Воссоздание мысленного взора: преобразование фМРТ в изображения с использованием контрастного обучения и диффузионных априорных моделей
Reconstructing the Mind's Eye: fMRI-to-Image with Contrastive Learning and Diffusion Priors
May 29, 2023
Авторы: Paul S. Scotti, Atmadeep Banerjee, Jimmie Goode, Stepan Shabalin, Alex Nguyen, Ethan Cohen, Aidan J. Dempster, Nathalie Verlinde, Elad Yundler, David Weisberg, Kenneth A. Norman, Tanishq Mathew Abraham
cs.AI
Аннотация
Мы представляем MindEye, новый подход fMRI-to-image для извлечения и реконструкции просмотренных изображений на основе активности мозга. Наша модель состоит из двух параллельных подмодулей, специализированных для извлечения (с использованием контрастивного обучения) и реконструкции (с использованием диффузионного априори). MindEye способна отображать активность мозга, полученную с помощью fMRI, в любое многомерное мультимодальное латентное пространство, такое как пространство изображений CLIP, что позволяет реконструировать изображения с использованием генеративных моделей, принимающих эмбеддинги из этого латентного пространства. Мы проводим всестороннее сравнение нашего подхода с другими существующими методами, используя как качественные параллельные сравнения, так и количественные оценки, и показываем, что MindEye достигает наилучших результатов как в задачах реконструкции, так и в задачах извлечения. В частности, MindEye способна извлечь точное исходное изображение даже среди высоко похожих кандидатов, что указывает на сохранение мелкозернистой информации, специфичной для изображения, в её эмбеддингах мозга. Это позволяет нам точно извлекать изображения даже из крупномасштабных баз данных, таких как LAION-5B. Мы демонстрируем с помощью абляций, что улучшения производительности MindEye по сравнению с предыдущими методами обусловлены специализированными подмодулями для извлечения и реконструкции, улучшенными техниками обучения и обучением моделей с на порядки большим количеством параметров. Кроме того, мы показываем, что MindEye может лучше сохранять низкоуровневые особенности изображений в реконструкциях, используя img2img с выходами отдельного автоэнкодера. Весь код доступен на GitHub.
English
We present MindEye, a novel fMRI-to-image approach to retrieve and
reconstruct viewed images from brain activity. Our model comprises two parallel
submodules that are specialized for retrieval (using contrastive learning) and
reconstruction (using a diffusion prior). MindEye can map fMRI brain activity
to any high dimensional multimodal latent space, like CLIP image space,
enabling image reconstruction using generative models that accept embeddings
from this latent space. We comprehensively compare our approach with other
existing methods, using both qualitative side-by-side comparisons and
quantitative evaluations, and show that MindEye achieves state-of-the-art
performance in both reconstruction and retrieval tasks. In particular, MindEye
can retrieve the exact original image even among highly similar candidates
indicating that its brain embeddings retain fine-grained image-specific
information. This allows us to accurately retrieve images even from large-scale
databases like LAION-5B. We demonstrate through ablations that MindEye's
performance improvements over previous methods result from specialized
submodules for retrieval and reconstruction, improved training techniques, and
training models with orders of magnitude more parameters. Furthermore, we show
that MindEye can better preserve low-level image features in the
reconstructions by using img2img, with outputs from a separate autoencoder. All
code is available on GitHub.