Het oog van de geest reconstrueren: fMRI-naar-beeld met contrastief leren en diffusie-priors
Reconstructing the Mind's Eye: fMRI-to-Image with Contrastive Learning and Diffusion Priors
May 29, 2023
Auteurs: Paul S. Scotti, Atmadeep Banerjee, Jimmie Goode, Stepan Shabalin, Alex Nguyen, Ethan Cohen, Aidan J. Dempster, Nathalie Verlinde, Elad Yundler, David Weisberg, Kenneth A. Norman, Tanishq Mathew Abraham
cs.AI
Samenvatting
We presenteren MindEye, een nieuwe fMRI-naar-beeldbenadering om bekeken afbeeldingen te herstellen en te reconstrueren uit hersenactiviteit. Ons model bestaat uit twee parallelle submodules die gespecialiseerd zijn voor herstel (met behulp van contrastief leren) en reconstructie (met behulp van een diffusieprior). MindEye kan fMRI-hersenactiviteit koppelen aan elke hoogdimensionale multimodale latente ruimte, zoals CLIP-beeldruimte, waardoor beeldreconstructie mogelijk wordt met behulp van generatieve modellen die embeddings uit deze latente ruimte accepteren. We vergelijken onze aanpak uitgebreid met andere bestaande methoden, zowel met kwalitatieve zij-aan-zij-vergelijkingen als kwantitatieve evaluaties, en laten zien dat MindEye state-of-the-art prestaties behaalt in zowel reconstructie- als hersteltaken. In het bijzonder kan MindEye de exacte originele afbeelding herstellen, zelfs tussen sterk gelijkende kandidaten, wat aangeeft dat de hersenembeddings fijnmazige, afbeelding-specifieke informatie behouden. Dit stelt ons in staat om afbeeldingen nauwkeurig te herstellen, zelfs uit grootschalige databases zoals LAION-5B. We demonstreren door middel van ablatiestudies dat de prestatieverbeteringen van MindEye ten opzichte van eerdere methoden het resultaat zijn van gespecialiseerde submodules voor herstel en reconstructie, verbeterde trainingsmethoden, en het trainen van modellen met een veel groter aantal parameters. Bovendien laten we zien dat MindEye laagniveau beeldkenmerken beter kan behouden in de reconstructies door gebruik te maken van img2img, met uitvoer van een aparte auto-encoder. Alle code is beschikbaar op GitHub.
English
We present MindEye, a novel fMRI-to-image approach to retrieve and
reconstruct viewed images from brain activity. Our model comprises two parallel
submodules that are specialized for retrieval (using contrastive learning) and
reconstruction (using a diffusion prior). MindEye can map fMRI brain activity
to any high dimensional multimodal latent space, like CLIP image space,
enabling image reconstruction using generative models that accept embeddings
from this latent space. We comprehensively compare our approach with other
existing methods, using both qualitative side-by-side comparisons and
quantitative evaluations, and show that MindEye achieves state-of-the-art
performance in both reconstruction and retrieval tasks. In particular, MindEye
can retrieve the exact original image even among highly similar candidates
indicating that its brain embeddings retain fine-grained image-specific
information. This allows us to accurately retrieve images even from large-scale
databases like LAION-5B. We demonstrate through ablations that MindEye's
performance improvements over previous methods result from specialized
submodules for retrieval and reconstruction, improved training techniques, and
training models with orders of magnitude more parameters. Furthermore, we show
that MindEye can better preserve low-level image features in the
reconstructions by using img2img, with outputs from a separate autoencoder. All
code is available on GitHub.