Reconstruire l'œil de l'esprit : fMRI-vers-Image avec Apprentissage Contrastif et A priori de Diffusion
Reconstructing the Mind's Eye: fMRI-to-Image with Contrastive Learning and Diffusion Priors
May 29, 2023
Auteurs: Paul S. Scotti, Atmadeep Banerjee, Jimmie Goode, Stepan Shabalin, Alex Nguyen, Ethan Cohen, Aidan J. Dempster, Nathalie Verlinde, Elad Yundler, David Weisberg, Kenneth A. Norman, Tanishq Mathew Abraham
cs.AI
Résumé
Nous présentons MindEye, une nouvelle approche fMRI-à-image pour récupérer et reconstruire des images visualisées à partir de l'activité cérébrale. Notre modèle comprend deux sous-modules parallèles spécialisés pour la récupération (utilisant l'apprentissage contrastif) et la reconstruction (utilisant un prior de diffusion). MindEye peut cartographier l'activité cérébrale fMRI vers n'importe quel espace latent multimodal de haute dimension, comme l'espace d'images CLIP, permettant la reconstruction d'images à l'aide de modèles génératifs qui acceptent des embeddings de cet espace latent. Nous comparons de manière exhaustive notre approche avec d'autres méthodes existantes, en utilisant à la fois des comparaisons qualitatives côte à côte et des évaluations quantitatives, et montrons que MindEye atteint des performances de pointe dans les tâches de reconstruction et de récupération. En particulier, MindEye peut récupérer l'image originale exacte même parmi des candidats très similaires, indiquant que ses embeddings cérébraux conservent des informations spécifiques à l'image de manière fine. Cela nous permet de récupérer avec précision des images même à partir de bases de données à grande échelle comme LAION-5B. Nous démontrons à travers des ablations que les améliorations de performance de MindEye par rapport aux méthodes précédentes résultent de sous-modules spécialisés pour la récupération et la reconstruction, de techniques d'entraînement améliorées, et de l'entraînement de modèles avec des ordres de grandeur de paramètres supplémentaires. De plus, nous montrons que MindEye peut mieux préserver les caractéristiques de bas niveau des images dans les reconstructions en utilisant img2img, avec des sorties d'un autoencodeur séparé. Tout le code est disponible sur GitHub.
English
We present MindEye, a novel fMRI-to-image approach to retrieve and
reconstruct viewed images from brain activity. Our model comprises two parallel
submodules that are specialized for retrieval (using contrastive learning) and
reconstruction (using a diffusion prior). MindEye can map fMRI brain activity
to any high dimensional multimodal latent space, like CLIP image space,
enabling image reconstruction using generative models that accept embeddings
from this latent space. We comprehensively compare our approach with other
existing methods, using both qualitative side-by-side comparisons and
quantitative evaluations, and show that MindEye achieves state-of-the-art
performance in both reconstruction and retrieval tasks. In particular, MindEye
can retrieve the exact original image even among highly similar candidates
indicating that its brain embeddings retain fine-grained image-specific
information. This allows us to accurately retrieve images even from large-scale
databases like LAION-5B. We demonstrate through ablations that MindEye's
performance improvements over previous methods result from specialized
submodules for retrieval and reconstruction, improved training techniques, and
training models with orders of magnitude more parameters. Furthermore, we show
that MindEye can better preserve low-level image features in the
reconstructions by using img2img, with outputs from a separate autoencoder. All
code is available on GitHub.