FEAT : Transformeur à Attention Efficace en Pleine Dimension pour la Génération de Vidéos Médicales
FEAT: Full-Dimensional Efficient Attention Transformer for Medical Video Generation
June 5, 2025
Auteurs: Huihan Wang, Zhiwen Yang, Hui Zhang, Dan Zhao, Bingzheng Wei, Yan Xu
cs.AI
Résumé
La synthèse de vidéos médicales dynamiques de haute qualité reste un défi majeur en raison de la nécessité de modéliser à la fois la cohérence spatiale et la dynamique temporelle. Les approches existantes basées sur les Transformers présentent des limitations critiques, notamment des interactions insuffisantes entre les canaux, une complexité computationnelle élevée due à l'auto-attention, et un guidage de débruitage grossier par les embeddings de pas de temps lors de la gestion de niveaux de bruit variables. Dans ce travail, nous proposons FEAT, un Transformer à attention efficace en pleine dimension, qui aborde ces problèmes grâce à trois innovations clés : (1) un paradigme unifié avec des mécanismes d'attention séquentiels spatial-temporel-canaux pour capturer les dépendances globales dans toutes les dimensions, (2) une conception à complexité linéaire pour les mécanismes d'attention dans chaque dimension, utilisant une attention clé-valeur pondérée et une attention globale sur les canaux, et (3) un module de guidage par valeur résiduelle qui fournit un guidage fin au niveau des pixels pour s'adapter à différents niveaux de bruit. Nous évaluons FEAT sur des benchmarks standard et des tâches en aval, démontrant que FEAT-S, avec seulement 23 % des paramètres du modèle de pointe Endora, atteint des performances comparables voire supérieures. De plus, FEAT-L surpasse toutes les méthodes de comparaison sur plusieurs ensembles de données, montrant à la fois une efficacité et une scalabilité supérieures. Le code est disponible à l'adresse https://github.com/Yaziwel/FEAT.
English
Synthesizing high-quality dynamic medical videos remains a significant
challenge due to the need for modeling both spatial consistency and temporal
dynamics. Existing Transformer-based approaches face critical limitations,
including insufficient channel interactions, high computational complexity from
self-attention, and coarse denoising guidance from timestep embeddings when
handling varying noise levels. In this work, we propose FEAT, a
full-dimensional efficient attention Transformer, which addresses these issues
through three key innovations: (1) a unified paradigm with sequential
spatial-temporal-channel attention mechanisms to capture global dependencies
across all dimensions, (2) a linear-complexity design for attention mechanisms
in each dimension, utilizing weighted key-value attention and global channel
attention, and (3) a residual value guidance module that provides fine-grained
pixel-level guidance to adapt to different noise levels. We evaluate FEAT on
standard benchmarks and downstream tasks, demonstrating that FEAT-S, with only
23\% of the parameters of the state-of-the-art model Endora, achieves
comparable or even superior performance. Furthermore, FEAT-L surpasses all
comparison methods across multiple datasets, showcasing both superior
effectiveness and scalability. Code is available at
https://github.com/Yaziwel/FEAT.