Ricostruire l'Occhio della Mente: fMRI-to-Image con Apprendimento Contrastivo e Prior Diffusivi
Reconstructing the Mind's Eye: fMRI-to-Image with Contrastive Learning and Diffusion Priors
May 29, 2023
Autori: Paul S. Scotti, Atmadeep Banerjee, Jimmie Goode, Stepan Shabalin, Alex Nguyen, Ethan Cohen, Aidan J. Dempster, Nathalie Verlinde, Elad Yundler, David Weisberg, Kenneth A. Norman, Tanishq Mathew Abraham
cs.AI
Abstract
Presentiamo MindEye, un nuovo approccio fMRI-to-image per recuperare e ricostruire immagini visualizzate a partire dall'attività cerebrale. Il nostro modello comprende due sottomoduli paralleli specializzati rispettivamente per il recupero (utilizzando l'apprendimento contrastivo) e la ricostruzione (utilizzando un prior di diffusione). MindEye è in grado di mappare l'attività cerebrale fMRI in qualsiasi spazio latente multimodale ad alta dimensionalità, come lo spazio delle immagini CLIP, consentendo la ricostruzione di immagini attraverso modelli generativi che accettano embedding da questo spazio latente. Confrontiamo in modo esaustivo il nostro approccio con altri metodi esistenti, utilizzando sia confronti qualitativi affiancati che valutazioni quantitative, e dimostriamo che MindEye raggiunge prestazioni all'avanguardia sia nei compiti di ricostruzione che di recupero. In particolare, MindEye è in grado di recuperare l'immagine originale esatta anche tra candidati molto simili, indicando che i suoi embedding cerebrali conservano informazioni specifiche e dettagliate dell'immagine. Ciò ci permette di recuperare con precisione immagini anche da database su larga scala come LAION-5B. Attraverso ablazioni, dimostriamo che i miglioramenti delle prestazioni di MindEye rispetto ai metodi precedenti derivano dai sottomoduli specializzati per il recupero e la ricostruzione, da tecniche di addestramento migliorate e dall'addestramento di modelli con un ordine di grandezza in più di parametri. Inoltre, mostriamo che MindEye può preservare meglio le caratteristiche di basso livello delle immagini nelle ricostruzioni utilizzando img2img, con output provenienti da un autoencoder separato. Tutto il codice è disponibile su GitHub.
English
We present MindEye, a novel fMRI-to-image approach to retrieve and
reconstruct viewed images from brain activity. Our model comprises two parallel
submodules that are specialized for retrieval (using contrastive learning) and
reconstruction (using a diffusion prior). MindEye can map fMRI brain activity
to any high dimensional multimodal latent space, like CLIP image space,
enabling image reconstruction using generative models that accept embeddings
from this latent space. We comprehensively compare our approach with other
existing methods, using both qualitative side-by-side comparisons and
quantitative evaluations, and show that MindEye achieves state-of-the-art
performance in both reconstruction and retrieval tasks. In particular, MindEye
can retrieve the exact original image even among highly similar candidates
indicating that its brain embeddings retain fine-grained image-specific
information. This allows us to accurately retrieve images even from large-scale
databases like LAION-5B. We demonstrate through ablations that MindEye's
performance improvements over previous methods result from specialized
submodules for retrieval and reconstruction, improved training techniques, and
training models with orders of magnitude more parameters. Furthermore, we show
that MindEye can better preserve low-level image features in the
reconstructions by using img2img, with outputs from a separate autoencoder. All
code is available on GitHub.