Rekonstruktion des geistigen Auges: fMRI-zu-Bild mit kontrastivem Lernen und Diffusionspriors
Reconstructing the Mind's Eye: fMRI-to-Image with Contrastive Learning and Diffusion Priors
May 29, 2023
Autoren: Paul S. Scotti, Atmadeep Banerjee, Jimmie Goode, Stepan Shabalin, Alex Nguyen, Ethan Cohen, Aidan J. Dempster, Nathalie Verlinde, Elad Yundler, David Weisberg, Kenneth A. Norman, Tanishq Mathew Abraham
cs.AI
Zusammenfassung
Wir präsentieren MindEye, einen neuartigen fMRI-zu-Bild-Ansatz, um betrachtete Bilder aus Gehirnaktivität abzurufen und zu rekonstruieren. Unser Modell besteht aus zwei parallelen Submodulen, die spezialisiert sind für das Retrieval (unter Verwendung von kontrastivem Lernen) und die Rekonstruktion (unter Verwendung eines Diffusions-Priors). MindEye kann fMRI-Gehirnaktivität in jeden hochdimensionalen multimodalen latenten Raum abbilden, wie beispielsweise den CLIP-Bildraum, wodurch die Bildrekonstruktion mithilfe von generativen Modellen ermöglicht wird, die Einbettungen aus diesem latenten Raum akzeptieren. Wir vergleichen unseren Ansatz umfassend mit anderen bestehenden Methoden, sowohl durch qualitative Gegenüberstellungen als auch durch quantitative Bewertungen, und zeigen, dass MindEye in beiden Aufgaben – Rekonstruktion und Retrieval – state-of-the-art Leistungen erzielt. Insbesondere kann MindEye das exakte Originalbild selbst unter stark ähnlichen Kandidaten abrufen, was darauf hindeutet, dass seine Gehirn-Einbettungen feinkörnige, bildspezifische Informationen bewahren. Dies ermöglicht es uns, Bilder selbst aus groß angelegten Datenbanken wie LAION-5B präzise abzurufen. Wir zeigen durch Ablationen, dass die Leistungsverbesserungen von MindEye gegenüber früheren Methoden auf spezialisierte Submodule für Retrieval und Rekonstruktion, verbesserte Trainingsmethoden und das Training von Modellen mit einer um Größenordnungen höheren Parameteranzahl zurückzuführen sind. Darüber hinaus demonstrieren wir, dass MindEye durch die Verwendung von img2img mit Ausgaben eines separaten Autoencoders niedrigstufige Bildmerkmale in den Rekonstruktionen besser bewahren kann. Der gesamte Code ist auf GitHub verfügbar.
English
We present MindEye, a novel fMRI-to-image approach to retrieve and
reconstruct viewed images from brain activity. Our model comprises two parallel
submodules that are specialized for retrieval (using contrastive learning) and
reconstruction (using a diffusion prior). MindEye can map fMRI brain activity
to any high dimensional multimodal latent space, like CLIP image space,
enabling image reconstruction using generative models that accept embeddings
from this latent space. We comprehensively compare our approach with other
existing methods, using both qualitative side-by-side comparisons and
quantitative evaluations, and show that MindEye achieves state-of-the-art
performance in both reconstruction and retrieval tasks. In particular, MindEye
can retrieve the exact original image even among highly similar candidates
indicating that its brain embeddings retain fine-grained image-specific
information. This allows us to accurately retrieve images even from large-scale
databases like LAION-5B. We demonstrate through ablations that MindEye's
performance improvements over previous methods result from specialized
submodules for retrieval and reconstruction, improved training techniques, and
training models with orders of magnitude more parameters. Furthermore, we show
that MindEye can better preserve low-level image features in the
reconstructions by using img2img, with outputs from a separate autoencoder. All
code is available on GitHub.