ChatPaper.aiChatPaper

마음의 눈 재구성: 대조 학습과 확산 사전 지식을 활용한 fMRI-to-이미지

Reconstructing the Mind's Eye: fMRI-to-Image with Contrastive Learning and Diffusion Priors

May 29, 2023
저자: Paul S. Scotti, Atmadeep Banerjee, Jimmie Goode, Stepan Shabalin, Alex Nguyen, Ethan Cohen, Aidan J. Dempster, Nathalie Verlinde, Elad Yundler, David Weisberg, Kenneth A. Norman, Tanishq Mathew Abraham
cs.AI

초록

본 논문에서는 뇌 활동으로부터 시각적 이미지를 검색 및 재구성하기 위한 새로운 fMRI-to-image 접근법인 MindEye를 소개한다. MindEye 모델은 검색(대조 학습 활용)과 재구성(확산 사전 활용)에 특화된 두 개의 병렬 서브모듈로 구성된다. MindEye는 fMRI 뇌 활동을 CLIP 이미지 공간과 같은 고차원 다중모드 잠재 공간으로 매핑할 수 있으며, 이 잠재 공간의 임베딩을 입력으로 받는 생성 모델을 통해 이미지 재구성을 가능하게 한다. 본 연구에서는 정성적 병렬 비교와 정량적 평가를 통해 MindEye를 기존 방법들과 포괄적으로 비교하였으며, MindEye가 재구성 및 검색 과제 모두에서 최첨단 성능을 달성함을 보여준다. 특히, MindEye는 매우 유사한 후보군들 사이에서도 원본 이미지를 정확히 검색할 수 있어, 뇌 임베딩이 세밀한 이미지 특정 정보를 보존하고 있음을 나타낸다. 이를 통해 LAION-5B와 같은 대규모 데이터베이스에서도 정확한 이미지 검색이 가능하다. Ablation 실험을 통해 MindEye의 성능 향상이 검색 및 재구성을 위한 특화된 서브모듈, 개선된 학습 기법, 그리고 기존보다 훨씬 많은 매개변수를 가진 모델 학습에서 비롯됨을 입증하였다. 또한, 별도의 오토인코더 출력을 활용한 img2img를 통해 MindEye가 재구성된 이미지에서 저수준 이미지 특징을 더 잘 보존할 수 있음을 보여준다. 모든 코드는 GitHub에서 확인할 수 있다.
English
We present MindEye, a novel fMRI-to-image approach to retrieve and reconstruct viewed images from brain activity. Our model comprises two parallel submodules that are specialized for retrieval (using contrastive learning) and reconstruction (using a diffusion prior). MindEye can map fMRI brain activity to any high dimensional multimodal latent space, like CLIP image space, enabling image reconstruction using generative models that accept embeddings from this latent space. We comprehensively compare our approach with other existing methods, using both qualitative side-by-side comparisons and quantitative evaluations, and show that MindEye achieves state-of-the-art performance in both reconstruction and retrieval tasks. In particular, MindEye can retrieve the exact original image even among highly similar candidates indicating that its brain embeddings retain fine-grained image-specific information. This allows us to accurately retrieve images even from large-scale databases like LAION-5B. We demonstrate through ablations that MindEye's performance improvements over previous methods result from specialized submodules for retrieval and reconstruction, improved training techniques, and training models with orders of magnitude more parameters. Furthermore, we show that MindEye can better preserve low-level image features in the reconstructions by using img2img, with outputs from a separate autoencoder. All code is available on GitHub.
PDF41December 15, 2024