ChatPaper.aiChatPaper

自然画像オートエンコーダはfMRIボリュームをコンパクトにトークン化して長期ダイナミクスモデリングを実現できるか?

Can Natural Image Autoencoders Compactly Tokenize fMRI Volumes for Long-Range Dynamics Modeling?

April 4, 2026
著者: Peter Yongho Kim, Juhyeon Park, Jungwoo Park, Jubin Choi, Jungwoo Seo, Jiook Cha, Taesup Moon
cs.AI

要旨

機能的磁気共鳴画像法(fMRI)における長距離時空間ダイナミクスのモデル化は、4次元信号の高次元性により、依然として主要な課題である。従来のボクセルベースモデルは、優れた性能と解釈可能性を示すものの、膨大なメモリ需要に制約され、限定的な時間ウィンドウしか捕捉できない。この問題に対処するため、我々はTABLeT(Two-dimensionally Autoencoded Brain Latent Transformer)を提案する。これは、事前学習済みの2次元自然画像オートエンコーダを用いてfMRIボリュームをトークン化する新規手法である。各3D fMRIボリュームはコンパクトな連続トークン集合に圧縮され、限られたVRAM環境で単純なTransformerエンコーダによる長系列モデリングを可能にする。UKバイオバンク(UKB)、ヒューマン・コネクトーム・プロジェクト(HCP)、ADHD-200データセットを含む大規模ベンチマークにおいて、TABLeTは複数のタスクで既存モデルを凌駕し、同じ入力条件下での最先端ボクセルベース手法と比較して計算効率とメモリ効率の大幅な向上を示した。さらに、マスクトークンモデリングに基づく自己教師あり学習手法を開発し、TABLeTの事前学習を実施することで、様々な下流タスクにおけるモデル性能が向上することを確認した。本研究成果は、脳活動のスケーラブルかつ解釈可能な時空間モデリングへの有望なアプローチを示唆するものである。コードはhttps://github.com/beotborry/TABLeT で公開されている。
English
Modeling long-range spatiotemporal dynamics in functional Magnetic Resonance Imaging (fMRI) remains a key challenge due to the high dimensionality of the four-dimensional signals. Prior voxel-based models, although demonstrating excellent performance and interpretation capabilities, are constrained by prohibitive memory demands and thus can only capture limited temporal windows. To address this, we propose TABLeT (Two-dimensionally Autoencoded Brain Latent Transformer), a novel approach that tokenizes fMRI volumes using a pre-trained 2D natural image autoencoder. Each 3D fMRI volume is compressed into a compact set of continuous tokens, enabling long-sequence modeling with a simple Transformer encoder with limited VRAM. Across large-scale benchmarks including the UK-Biobank (UKB), Human Connectome Project (HCP), and ADHD-200 datasets, TABLeT outperforms existing models in multiple tasks, while demonstrating substantial gains in computational and memory efficiency over the state-of-the-art voxel-based method given the same input. Furthermore, we develop a self-supervised masked token modeling approach to pre-train TABLeT, which improves the model's performance for various downstream tasks. Our findings suggest a promising approach for scalable and interpretable spatiotemporal modeling of brain activity. Our code is available at https://github.com/beotborry/TABLeT.
PDF21April 9, 2026