Могут ли автоэнкодеры естественных изображений компактно токенизировать объемы фМРТ для моделирования долгосрочной динамики?

Аннотация

Моделирование дальнодействующих пространственно-временных динамик в функциональной магнитно-резонансной томографии (фМРТ) остается ключевой проблемой из-за высокой размерности четырехмерных сигналов. Предыдущие воксельные модели, хотя и демонстрируют превосходную производительность и интерпретируемость, ограничены чрезмерными требованиями к памяти и, следовательно, могут охватывать лишь ограниченные временные окна. Для решения этой проблемы мы предлагаем TABLeT (двумерно автоэнкодированный трансформер скрытых представлений мозга) — новый подход, который токенизирует объемы фМРТ с использованием предварительно обученного 2D-автоэнкодера для натуральных изображений. Каждый 3D-объем фМРТ сжимается в компактный набор непрерывных токенов, что позволяет моделировать длинные последовательности с помощью простого трансформер-энкодера с ограниченным объемом видеопамяти. На крупномасштабных бенчмарках, включая UK-Biobank (UKB), Human Connectome Project (HCP) и ADHD-200, TABLeT превосходит существующие модели в решении множества задач, одновременно демонстрируя существенный выигрыш в вычислительной и памятировой эффективности по сравнению с передовым воксельным методом при одинаковых входных данных. Кроме того, мы разработали подход самообучения с маскированием токенов для предварительного обучения TABLeT, который улучшает производительность модели для различных последующих задач. Наши результаты указывают на перспективный подход для масштабируемого и интерпретируемого пространственно-временного моделирования мозговой активности. Наш код доступен по адресу https://github.com/beotborry/TABLeT.

English

Modeling long-range spatiotemporal dynamics in functional Magnetic Resonance Imaging (fMRI) remains a key challenge due to the high dimensionality of the four-dimensional signals. Prior voxel-based models, although demonstrating excellent performance and interpretation capabilities, are constrained by prohibitive memory demands and thus can only capture limited temporal windows. To address this, we propose TABLeT (Two-dimensionally Autoencoded Brain Latent Transformer), a novel approach that tokenizes fMRI volumes using a pre-trained 2D natural image autoencoder. Each 3D fMRI volume is compressed into a compact set of continuous tokens, enabling long-sequence modeling with a simple Transformer encoder with limited VRAM. Across large-scale benchmarks including the UK-Biobank (UKB), Human Connectome Project (HCP), and ADHD-200 datasets, TABLeT outperforms existing models in multiple tasks, while demonstrating substantial gains in computational and memory efficiency over the state-of-the-art voxel-based method given the same input. Furthermore, we develop a self-supervised masked token modeling approach to pre-train TABLeT, which improves the model's performance for various downstream tasks. Our findings suggest a promising approach for scalable and interpretable spatiotemporal modeling of brain activity. Our code is available at https://github.com/beotborry/TABLeT.

Могут ли автоэнкодеры естественных изображений компактно токенизировать объемы фМРТ для моделирования долгосрочной динамики?

Can Natural Image Autoencoders Compactly Tokenize fMRI Volumes for Long-Range Dynamics Modeling?

Аннотация

Support