ChatPaper.aiChatPaper

MindEye2: Modelos de sujeto compartido permiten la reconstrucción de imágenes a partir de fMRI con solo 1 hora de datos

MindEye2: Shared-Subject Models Enable fMRI-To-Image With 1 Hour of Data

March 17, 2024
Autores: Paul S. Scotti, Mihir Tripathy, Cesar Kadir Torrico Villanueva, Reese Kneeland, Tong Chen, Ashutosh Narang, Charan Santhirasegaran, Jonathan Xu, Thomas Naselaris, Kenneth A. Norman, Tanishq Mathew Abraham
cs.AI

Resumen

Las reconstrucciones de la percepción visual a partir de la actividad cerebral han mejorado enormemente, pero la utilidad práctica de estos métodos ha sido limitada. Esto se debe a que tales modelos se entrenan de forma independiente por sujeto, donde cada sujeto requiere docenas de horas de datos costosos de resonancia magnética funcional (fMRI) para alcanzar resultados de alta calidad. El presente trabajo muestra reconstrucciones de alta calidad utilizando solo 1 hora de datos de entrenamiento de fMRI. Preentrenamos nuestro modelo en 7 sujetos y luego ajustamos con datos mínimos de un nuevo sujeto. Nuestro novedoso procedimiento de alineación funcional mapea linealmente todos los datos cerebrales a un espacio latente compartido entre sujetos, seguido de un mapeo no lineal compartido al espacio de imágenes CLIP. Luego, mapeamos desde el espacio CLIP al espacio de píxeles ajustando Stable Diffusion XL para que acepte latentes CLIP como entradas en lugar de texto. Este enfoque mejora la generalización fuera del sujeto con datos de entrenamiento limitados y también alcanza métricas de recuperación y reconstrucción de imágenes de vanguardia en comparación con enfoques de un solo sujeto. MindEye2 demuestra que es posible obtener reconstrucciones precisas de la percepción con una sola visita a la instalación de resonancia magnética. Todo el código está disponible en GitHub.
English
Reconstructions of visual perception from brain activity have improved tremendously, but the practical utility of such methods has been limited. This is because such models are trained independently per subject where each subject requires dozens of hours of expensive fMRI training data to attain high-quality results. The present work showcases high-quality reconstructions using only 1 hour of fMRI training data. We pretrain our model across 7 subjects and then fine-tune on minimal data from a new subject. Our novel functional alignment procedure linearly maps all brain data to a shared-subject latent space, followed by a shared non-linear mapping to CLIP image space. We then map from CLIP space to pixel space by fine-tuning Stable Diffusion XL to accept CLIP latents as inputs instead of text. This approach improves out-of-subject generalization with limited training data and also attains state-of-the-art image retrieval and reconstruction metrics compared to single-subject approaches. MindEye2 demonstrates how accurate reconstructions of perception are possible from a single visit to the MRI facility. All code is available on GitHub.

Summary

AI-Generated Summary

PDF152December 15, 2024