FEAT: Full-Dimensional Efficient Attention Transformer für die Generierung medizinischer Videos
FEAT: Full-Dimensional Efficient Attention Transformer for Medical Video Generation
June 5, 2025
Autoren: Huihan Wang, Zhiwen Yang, Hui Zhang, Dan Zhao, Bingzheng Wei, Yan Xu
cs.AI
Zusammenfassung
Die Synthese hochwertiger dynamischer medizinischer Videos bleibt eine erhebliche Herausforderung, da sowohl die räumliche Konsistenz als auch die zeitliche Dynamik modelliert werden müssen. Bestehende Transformer-basierte Ansätze stoßen auf kritische Einschränkungen, darunter unzureichende Kanalinteraktionen, hohe Rechenkomplexität durch Self-Attention und grobe Rauschunterdrückungsführung durch Zeitschritt-Einbettungen bei der Handhabung variierender Rauschpegel. In dieser Arbeit schlagen wir FEAT vor, einen effizienten Attention-Transformer mit vollständiger Dimension, der diese Probleme durch drei Schlüsselinnovationen adressiert: (1) ein einheitliches Paradigma mit sequenziellen räumlich-zeitlich-kanalbezogenen Attention-Mechanismen, um globale Abhängigkeiten über alle Dimensionen zu erfassen, (2) ein linear-komplexes Design für Attention-Mechanismen in jeder Dimension, das gewichtete Key-Value-Attention und globale Kanal-Attention nutzt, und (3) ein Residual Value Guidance-Modul, das fein abgestimmte pixelgenaue Führung bietet, um sich an verschiedene Rauschpegel anzupassen. Wir evaluieren FEAT anhand von Standard-Benchmarks und nachgelagerten Aufgaben und zeigen, dass FEAT-S, mit nur 23 % der Parameter des State-of-the-Art-Modells Endora, vergleichbare oder sogar überlegene Leistung erzielt. Darüber hinaus übertrifft FEAT-L alle Vergleichsmethoden über mehrere Datensätze hinweg und demonstriert sowohl überlegene Effektivität als auch Skalierbarkeit. Der Code ist verfügbar unter https://github.com/Yaziwel/FEAT.
English
Synthesizing high-quality dynamic medical videos remains a significant
challenge due to the need for modeling both spatial consistency and temporal
dynamics. Existing Transformer-based approaches face critical limitations,
including insufficient channel interactions, high computational complexity from
self-attention, and coarse denoising guidance from timestep embeddings when
handling varying noise levels. In this work, we propose FEAT, a
full-dimensional efficient attention Transformer, which addresses these issues
through three key innovations: (1) a unified paradigm with sequential
spatial-temporal-channel attention mechanisms to capture global dependencies
across all dimensions, (2) a linear-complexity design for attention mechanisms
in each dimension, utilizing weighted key-value attention and global channel
attention, and (3) a residual value guidance module that provides fine-grained
pixel-level guidance to adapt to different noise levels. We evaluate FEAT on
standard benchmarks and downstream tasks, demonstrating that FEAT-S, with only
23\% of the parameters of the state-of-the-art model Endora, achieves
comparable or even superior performance. Furthermore, FEAT-L surpasses all
comparison methods across multiple datasets, showcasing both superior
effectiveness and scalability. Code is available at
https://github.com/Yaziwel/FEAT.