Können Autoencoder für natürliche Bilder fMRI-Volumina kompakt tokenisieren, um Langzeitdynamiken zu modellieren?
Can Natural Image Autoencoders Compactly Tokenize fMRI Volumes for Long-Range Dynamics Modeling?
April 4, 2026
Autoren: Peter Yongho Kim, Juhyeon Park, Jungwoo Park, Jubin Choi, Jungwoo Seo, Jiook Cha, Taesup Moon
cs.AI
Zusammenfassung
Die Modellierung langreichweitiger raumzeitlicher Dynamiken in der funktionellen Magnetresonanztomographie (fMRT) stellt aufgrund der hohen Dimensionalität der vierdimensionalen Signale nach wie vor eine große Herausforderung dar. Bisherige voxelbasierte Modelle, obwohl sie hervorragende Leistungen und Interpretationsfähigkeiten demonstrieren, sind durch prohibitive Speicheranforderungen eingeschränkt und können daher nur begrenzte zeitliche Fenster erfassen. Um dies zu adressieren, schlagen wir TABLeT (Two-dimensionally Autoencoded Brain Latent Transformer) vor, einen neuartigen Ansatz, der fMRT-Volumina unter Verwendung eines vortrainierten 2D-Naturbild-Autoencoders tokenisiert. Jedes 3D-fMRT-Volumen wird in einen kompakten Satz kontinuierlicher Tokens komprimiert, was eine Modellierung langer Sequenzen mit einem einfachen Transformer-Encoder mit begrenztem VRAM ermöglicht. In groß angelegten Benchmarks, einschließlich der UK-Biobank (UKB), des Human Connectome Project (HCP) und der ADHD-200-Datensätze, übertrifft TABLeT bestehende Modelle bei mehreren Aufgaben und zeigt gleichzeitig erhebliche Verbesserungen in der Rechen- und Speichereffizienz gegenüber der aktuellsten voxelbasierten Methode bei gleicher Eingabe. Darüber hinaus entwickeln wir einen selbstüberwachten Ansatz zur Modellierung maskierter Tokens, um TABLeT vorzutrainieren, was die Leistung des Modells für verschiedene nachgelagerte Aufgaben verbessert. Unsere Ergebnisse deuten auf einen vielversprechenden Ansatz für skalierbare und interpretierbare raumzeitliche Modellierung der Gehirnaktivität hin. Unser Code ist verfügbar unter https://github.com/beotborry/TABLeT.
English
Modeling long-range spatiotemporal dynamics in functional Magnetic Resonance Imaging (fMRI) remains a key challenge due to the high dimensionality of the four-dimensional signals. Prior voxel-based models, although demonstrating excellent performance and interpretation capabilities, are constrained by prohibitive memory demands and thus can only capture limited temporal windows. To address this, we propose TABLeT (Two-dimensionally Autoencoded Brain Latent Transformer), a novel approach that tokenizes fMRI volumes using a pre-trained 2D natural image autoencoder. Each 3D fMRI volume is compressed into a compact set of continuous tokens, enabling long-sequence modeling with a simple Transformer encoder with limited VRAM. Across large-scale benchmarks including the UK-Biobank (UKB), Human Connectome Project (HCP), and ADHD-200 datasets, TABLeT outperforms existing models in multiple tasks, while demonstrating substantial gains in computational and memory efficiency over the state-of-the-art voxel-based method given the same input. Furthermore, we develop a self-supervised masked token modeling approach to pre-train TABLeT, which improves the model's performance for various downstream tasks. Our findings suggest a promising approach for scalable and interpretable spatiotemporal modeling of brain activity. Our code is available at https://github.com/beotborry/TABLeT.