ChatPaper.aiChatPaper

心の目を再構築する:コントラスティブ学習と拡散事前分布を用いたfMRI-to-Image

Reconstructing the Mind's Eye: fMRI-to-Image with Contrastive Learning and Diffusion Priors

May 29, 2023
著者: Paul S. Scotti, Atmadeep Banerjee, Jimmie Goode, Stepan Shabalin, Alex Nguyen, Ethan Cohen, Aidan J. Dempster, Nathalie Verlinde, Elad Yundler, David Weisberg, Kenneth A. Norman, Tanishq Mathew Abraham
cs.AI

要旨

私たちは、脳活動から視覚画像を検索・再構築するための新しいfMRI-to-imageアプローチであるMindEyeを提案します。本モデルは、検索(コントラスティブ学習を使用)と再構築(拡散事前分布を使用)に特化した2つの並列サブモジュールで構成されています。MindEyeは、fMRIの脳活動をCLIP画像空間のような高次元マルチモーダル潜在空間にマッピングすることができ、この潜在空間からの埋め込みを受け入れる生成モデルを使用した画像再構築を可能にします。私たちは、定性的な並列比較と定量的な評価の両方を用いて、本アプローチを他の既存手法と包括的に比較し、MindEyeが再構築と検索の両タスクにおいて最先端の性能を達成することを示します。特に、MindEyeは非常に類似した候補の中からも正確に元の画像を検索することができ、その脳埋め込みが細かい粒度の画像固有の情報を保持していることを示しています。これにより、LAION-5Bのような大規模データベースからも正確に画像を検索することが可能です。私たちは、アブレーション実験を通じて、MindEyeの性能向上が、検索と再構築のための特化したサブモジュール、改良された学習技術、そして桁違いに多くのパラメータを持つモデルの学習に起因することを示します。さらに、別個のオートエンコーダからの出力を用いてimg2imgを使用することで、MindEyeが再構築において低レベルな画像特徴をより良く保持できることを示します。すべてのコードはGitHubで公開されています。
English
We present MindEye, a novel fMRI-to-image approach to retrieve and reconstruct viewed images from brain activity. Our model comprises two parallel submodules that are specialized for retrieval (using contrastive learning) and reconstruction (using a diffusion prior). MindEye can map fMRI brain activity to any high dimensional multimodal latent space, like CLIP image space, enabling image reconstruction using generative models that accept embeddings from this latent space. We comprehensively compare our approach with other existing methods, using both qualitative side-by-side comparisons and quantitative evaluations, and show that MindEye achieves state-of-the-art performance in both reconstruction and retrieval tasks. In particular, MindEye can retrieve the exact original image even among highly similar candidates indicating that its brain embeddings retain fine-grained image-specific information. This allows us to accurately retrieve images even from large-scale databases like LAION-5B. We demonstrate through ablations that MindEye's performance improvements over previous methods result from specialized submodules for retrieval and reconstruction, improved training techniques, and training models with orders of magnitude more parameters. Furthermore, we show that MindEye can better preserve low-level image features in the reconstructions by using img2img, with outputs from a separate autoencoder. All code is available on GitHub.
PDF41December 15, 2024