ChatPaper.aiChatPaper

자연 이미지 오토인코더로 fMRI 볼륨을 컴팩트하게 토큰화하여 장기적 동역학 모델링이 가능한가?

Can Natural Image Autoencoders Compactly Tokenize fMRI Volumes for Long-Range Dynamics Modeling?

April 4, 2026
저자: Peter Yongho Kim, Juhyeon Park, Jungwoo Park, Jubin Choi, Jungwoo Seo, Jiook Cha, Taesup Moon
cs.AI

초록

기능적 자기공명영상(fMRI)에서 장거리 시공간 역학을 모델링하는 것은 4차원 신호의 높은 차원성으로 인해 여전히 주요 과제로 남아 있습니다. 기존 복셀 기반 모델들은 우수한 성능과 해석 능력을 입증하였으나, 과도한 메모리 요구량으로 제한되어 제한된 시간 창만 포착할 수 있습니다. 이를 해결하기 위해 우리는 사전 훈련된 2D 자연 이미지 오토인코더를 사용하여 fMRI 볼륨을 토큰화하는 새로운 접근법인 TABLeT(Two-dimensionally Autoencoded Brain Latent Transformer)를 제안합니다. 각 3D fMRI 볼륨은 컴팩트한 연속 토큰 집합으로 압축되어, 제한된 VRAM으로도 간단한 Transformer 인코더를 이용한 장기간 시퀀스 모델링이 가능합니다. UK-Biobank(UKB), Human Connectome Project(HCP), ADHD-200 데이터셋을 포함한 대규모 벤치마크에서 TABLeT는 다양한 작업에서 기존 모델들을 능가하였으며, 동일한 입력 대비 최신 복셀 기반 방법론 대비 계산 및 메모리 효율성에서 상당한 이점을 보였습니다. 더 나아가, 우리는 TABLeT의 사전 훈련을 위한 자기 지도 마스크 토큰 모델링 접근법을 개발하여 다양한 하위 작업에서 모델 성능을 향상시켰습니다. 우리의 연구 결과는 뇌 활동의 확장 가능하고 해석 가능한 시공간 모델링에 대한 유망한 접근법을 제시합니다. 우리의 코드는 https://github.com/beotborry/TABLeT에서 확인할 수 있습니다.
English
Modeling long-range spatiotemporal dynamics in functional Magnetic Resonance Imaging (fMRI) remains a key challenge due to the high dimensionality of the four-dimensional signals. Prior voxel-based models, although demonstrating excellent performance and interpretation capabilities, are constrained by prohibitive memory demands and thus can only capture limited temporal windows. To address this, we propose TABLeT (Two-dimensionally Autoencoded Brain Latent Transformer), a novel approach that tokenizes fMRI volumes using a pre-trained 2D natural image autoencoder. Each 3D fMRI volume is compressed into a compact set of continuous tokens, enabling long-sequence modeling with a simple Transformer encoder with limited VRAM. Across large-scale benchmarks including the UK-Biobank (UKB), Human Connectome Project (HCP), and ADHD-200 datasets, TABLeT outperforms existing models in multiple tasks, while demonstrating substantial gains in computational and memory efficiency over the state-of-the-art voxel-based method given the same input. Furthermore, we develop a self-supervised masked token modeling approach to pre-train TABLeT, which improves the model's performance for various downstream tasks. Our findings suggest a promising approach for scalable and interpretable spatiotemporal modeling of brain activity. Our code is available at https://github.com/beotborry/TABLeT.
PDF21April 9, 2026