Les autoencodeurs d'images naturelles peuvent-ils tokeniser de manière compacte les volumes IRMf pour la modélisation de la dynamique à long terme ?
Can Natural Image Autoencoders Compactly Tokenize fMRI Volumes for Long-Range Dynamics Modeling?
April 4, 2026
Auteurs: Peter Yongho Kim, Juhyeon Park, Jungwoo Park, Jubin Choi, Jungwoo Seo, Jiook Cha, Taesup Moon
cs.AI
Résumé
La modélisation des dynamiques spatiotemporelles à longue portée en imagerie par résonance magnétique fonctionnelle (IRMf) reste un défi majeur en raison de la haute dimensionnalité des signaux quadridimensionnels. Les modèles antérieurs basés sur les voxels, bien qu'ayant démontré d'excellentes performances et capacités d'interprétation, sont limités par des exigences mémoire prohibitives et ne peuvent donc capturer que des fenêtres temporelles restreintes. Pour résoudre ce problème, nous proposons TABLeT (Two-dimensionally Autoencoded Brain Latent Transformer), une approche novatrice qui tokenise les volumes d'IRMf à l'aide d'un autoencodeur d'images naturelles 2D pré-entraîné. Chaque volume 3D d'IRMf est compressé en un ensemble compact de tokens continus, permettant une modélisation de longues séquences avec un simple encodeur Transformer nécessitant une mémoire vidéo limitée. Sur de vastes benchmarks incluant UK-Biobank (UKB), Human Connectome Project (HCP) et ADHD-200, TABLeT surpasse les modèles existants dans plusieurs tâches, tout en démontrant des gains substantiels en efficacité computationnelle et mémoire par rapport à la méthode state-of-the-art basée sur les voxels avec les mêmes entrées. Par ailleurs, nous développons une approche d'auto-supervision par modélisation de tokens masqués pour pré-entraîner TABLeT, ce qui améliore les performances du modèle pour diverses tâches en aval. Nos résultats suggèrent une approche prometteuse pour une modélisation spatiotemporelle scalable et interprétable de l'activité cérébrale. Notre code est disponible à l'adresse https://github.com/beotborry/TABLeT.
English
Modeling long-range spatiotemporal dynamics in functional Magnetic Resonance Imaging (fMRI) remains a key challenge due to the high dimensionality of the four-dimensional signals. Prior voxel-based models, although demonstrating excellent performance and interpretation capabilities, are constrained by prohibitive memory demands and thus can only capture limited temporal windows. To address this, we propose TABLeT (Two-dimensionally Autoencoded Brain Latent Transformer), a novel approach that tokenizes fMRI volumes using a pre-trained 2D natural image autoencoder. Each 3D fMRI volume is compressed into a compact set of continuous tokens, enabling long-sequence modeling with a simple Transformer encoder with limited VRAM. Across large-scale benchmarks including the UK-Biobank (UKB), Human Connectome Project (HCP), and ADHD-200 datasets, TABLeT outperforms existing models in multiple tasks, while demonstrating substantial gains in computational and memory efficiency over the state-of-the-art voxel-based method given the same input. Furthermore, we develop a self-supervised masked token modeling approach to pre-train TABLeT, which improves the model's performance for various downstream tasks. Our findings suggest a promising approach for scalable and interpretable spatiotemporal modeling of brain activity. Our code is available at https://github.com/beotborry/TABLeT.