Reconstruyendo el ojo de la mente: fMRI-a-Imagen con Aprendizaje Contrastivo y Priores de Difusión
Reconstructing the Mind's Eye: fMRI-to-Image with Contrastive Learning and Diffusion Priors
May 29, 2023
Autores: Paul S. Scotti, Atmadeep Banerjee, Jimmie Goode, Stepan Shabalin, Alex Nguyen, Ethan Cohen, Aidan J. Dempster, Nathalie Verlinde, Elad Yundler, David Weisberg, Kenneth A. Norman, Tanishq Mathew Abraham
cs.AI
Resumen
Presentamos MindEye, un novedoso enfoque de fMRI-a-imagen para recuperar y reconstruir imágenes vistas a partir de la actividad cerebral. Nuestro modelo consta de dos submódulos paralelos especializados en recuperación (utilizando aprendizaje contrastivo) y reconstrucción (utilizando un prior de difusión). MindEye puede mapear la actividad cerebral de fMRI a cualquier espacio latente multimodal de alta dimensión, como el espacio de imágenes CLIP, permitiendo la reconstrucción de imágenes mediante modelos generativos que aceptan incrustaciones de este espacio latente. Comparamos exhaustivamente nuestro enfoque con otros métodos existentes, utilizando tanto comparaciones cualitativas lado a lado como evaluaciones cuantitativas, y demostramos que MindEye alcanza un rendimiento de vanguardia tanto en tareas de reconstrucción como de recuperación. En particular, MindEye puede recuperar la imagen original exacta incluso entre candidatos muy similares, lo que indica que sus incrustaciones cerebrales retienen información específica de la imagen a nivel detallado. Esto nos permite recuperar imágenes con precisión incluso de bases de datos a gran escala como LAION-5B. Demostramos mediante ablaciones que las mejoras de rendimiento de MindEye sobre métodos anteriores se deben a submódulos especializados para recuperación y reconstrucción, técnicas de entrenamiento mejoradas y el entrenamiento de modelos con órdenes de magnitud más parámetros. Además, mostramos que MindEye puede preservar mejor las características de bajo nivel de las imágenes en las reconstrucciones utilizando img2img, con salidas de un autoencoder separado. Todo el código está disponible en GitHub.
English
We present MindEye, a novel fMRI-to-image approach to retrieve and
reconstruct viewed images from brain activity. Our model comprises two parallel
submodules that are specialized for retrieval (using contrastive learning) and
reconstruction (using a diffusion prior). MindEye can map fMRI brain activity
to any high dimensional multimodal latent space, like CLIP image space,
enabling image reconstruction using generative models that accept embeddings
from this latent space. We comprehensively compare our approach with other
existing methods, using both qualitative side-by-side comparisons and
quantitative evaluations, and show that MindEye achieves state-of-the-art
performance in both reconstruction and retrieval tasks. In particular, MindEye
can retrieve the exact original image even among highly similar candidates
indicating that its brain embeddings retain fine-grained image-specific
information. This allows us to accurately retrieve images even from large-scale
databases like LAION-5B. We demonstrate through ablations that MindEye's
performance improvements over previous methods result from specialized
submodules for retrieval and reconstruction, improved training techniques, and
training models with orders of magnitude more parameters. Furthermore, we show
that MindEye can better preserve low-level image features in the
reconstructions by using img2img, with outputs from a separate autoencoder. All
code is available on GitHub.