마음의 눈 재구성: 대조 학습과 확산 사전 지식을 활용한 fMRI-to-이미지
Reconstructing the Mind's Eye: fMRI-to-Image with Contrastive Learning and Diffusion Priors
May 29, 2023
저자: Paul S. Scotti, Atmadeep Banerjee, Jimmie Goode, Stepan Shabalin, Alex Nguyen, Ethan Cohen, Aidan J. Dempster, Nathalie Verlinde, Elad Yundler, David Weisberg, Kenneth A. Norman, Tanishq Mathew Abraham
cs.AI
초록
본 논문에서는 뇌 활동으로부터 시각적 이미지를 검색 및 재구성하기 위한 새로운 fMRI-to-image 접근법인 MindEye를 소개한다. MindEye 모델은 검색(대조 학습 활용)과 재구성(확산 사전 활용)에 특화된 두 개의 병렬 서브모듈로 구성된다. MindEye는 fMRI 뇌 활동을 CLIP 이미지 공간과 같은 고차원 다중모드 잠재 공간으로 매핑할 수 있으며, 이 잠재 공간의 임베딩을 입력으로 받는 생성 모델을 통해 이미지 재구성을 가능하게 한다. 본 연구에서는 정성적 병렬 비교와 정량적 평가를 통해 MindEye를 기존 방법들과 포괄적으로 비교하였으며, MindEye가 재구성 및 검색 과제 모두에서 최첨단 성능을 달성함을 보여준다. 특히, MindEye는 매우 유사한 후보군들 사이에서도 원본 이미지를 정확히 검색할 수 있어, 뇌 임베딩이 세밀한 이미지 특정 정보를 보존하고 있음을 나타낸다. 이를 통해 LAION-5B와 같은 대규모 데이터베이스에서도 정확한 이미지 검색이 가능하다. Ablation 실험을 통해 MindEye의 성능 향상이 검색 및 재구성을 위한 특화된 서브모듈, 개선된 학습 기법, 그리고 기존보다 훨씬 많은 매개변수를 가진 모델 학습에서 비롯됨을 입증하였다. 또한, 별도의 오토인코더 출력을 활용한 img2img를 통해 MindEye가 재구성된 이미지에서 저수준 이미지 특징을 더 잘 보존할 수 있음을 보여준다. 모든 코드는 GitHub에서 확인할 수 있다.
English
We present MindEye, a novel fMRI-to-image approach to retrieve and
reconstruct viewed images from brain activity. Our model comprises two parallel
submodules that are specialized for retrieval (using contrastive learning) and
reconstruction (using a diffusion prior). MindEye can map fMRI brain activity
to any high dimensional multimodal latent space, like CLIP image space,
enabling image reconstruction using generative models that accept embeddings
from this latent space. We comprehensively compare our approach with other
existing methods, using both qualitative side-by-side comparisons and
quantitative evaluations, and show that MindEye achieves state-of-the-art
performance in both reconstruction and retrieval tasks. In particular, MindEye
can retrieve the exact original image even among highly similar candidates
indicating that its brain embeddings retain fine-grained image-specific
information. This allows us to accurately retrieve images even from large-scale
databases like LAION-5B. We demonstrate through ablations that MindEye's
performance improvements over previous methods result from specialized
submodules for retrieval and reconstruction, improved training techniques, and
training models with orders of magnitude more parameters. Furthermore, we show
that MindEye can better preserve low-level image features in the
reconstructions by using img2img, with outputs from a separate autoencoder. All
code is available on GitHub.