FEAT: Full-Dimensional Efficient Attention Transformer für die Generierung medizinischer Videos

papers.abstract

Die Synthese hochwertiger dynamischer medizinischer Videos bleibt eine erhebliche Herausforderung, da sowohl die räumliche Konsistenz als auch die zeitliche Dynamik modelliert werden müssen. Bestehende Transformer-basierte Ansätze stoßen auf kritische Einschränkungen, darunter unzureichende Kanalinteraktionen, hohe Rechenkomplexität durch Self-Attention und grobe Rauschunterdrückungsführung durch Zeitschritt-Einbettungen bei der Handhabung variierender Rauschpegel. In dieser Arbeit schlagen wir FEAT vor, einen effizienten Attention-Transformer mit vollständiger Dimension, der diese Probleme durch drei Schlüsselinnovationen adressiert: (1) ein einheitliches Paradigma mit sequenziellen räumlich-zeitlich-kanalbezogenen Attention-Mechanismen, um globale Abhängigkeiten über alle Dimensionen zu erfassen, (2) ein linear-komplexes Design für Attention-Mechanismen in jeder Dimension, das gewichtete Key-Value-Attention und globale Kanal-Attention nutzt, und (3) ein Residual Value Guidance-Modul, das fein abgestimmte pixelgenaue Führung bietet, um sich an verschiedene Rauschpegel anzupassen. Wir evaluieren FEAT anhand von Standard-Benchmarks und nachgelagerten Aufgaben und zeigen, dass FEAT-S, mit nur 23 % der Parameter des State-of-the-Art-Modells Endora, vergleichbare oder sogar überlegene Leistung erzielt. Darüber hinaus übertrifft FEAT-L alle Vergleichsmethoden über mehrere Datensätze hinweg und demonstriert sowohl überlegene Effektivität als auch Skalierbarkeit. Der Code ist verfügbar unter https://github.com/Yaziwel/FEAT.

English

Synthesizing high-quality dynamic medical videos remains a significant challenge due to the need for modeling both spatial consistency and temporal dynamics. Existing Transformer-based approaches face critical limitations, including insufficient channel interactions, high computational complexity from self-attention, and coarse denoising guidance from timestep embeddings when handling varying noise levels. In this work, we propose FEAT, a full-dimensional efficient attention Transformer, which addresses these issues through three key innovations: (1) a unified paradigm with sequential spatial-temporal-channel attention mechanisms to capture global dependencies across all dimensions, (2) a linear-complexity design for attention mechanisms in each dimension, utilizing weighted key-value attention and global channel attention, and (3) a residual value guidance module that provides fine-grained pixel-level guidance to adapt to different noise levels. We evaluate FEAT on standard benchmarks and downstream tasks, demonstrating that FEAT-S, with only 23\% of the parameters of the state-of-the-art model Endora, achieves comparable or even superior performance. Furthermore, FEAT-L surpasses all comparison methods across multiple datasets, showcasing both superior effectiveness and scalability. Code is available at https://github.com/Yaziwel/FEAT.

FEAT: Full-Dimensional Efficient Attention Transformer für die Generierung medizinischer Videos

FEAT: Full-Dimensional Efficient Attention Transformer for Medical Video Generation

papers.abstract

Support