ChatPaper.aiChatPaper

FEAT: Trasformatore con Attenzione Efficiente a Dimensione Completa per la Generazione di Video Medici

FEAT: Full-Dimensional Efficient Attention Transformer for Medical Video Generation

June 5, 2025
Autori: Huihan Wang, Zhiwen Yang, Hui Zhang, Dan Zhao, Bingzheng Wei, Yan Xu
cs.AI

Abstract

La sintesi di video medici dinamici di alta qualità rimane una sfida significativa a causa della necessità di modellare sia la coerenza spaziale che la dinamica temporale. Gli approcci esistenti basati su Transformer presentano limitazioni critiche, tra cui interazioni insufficienti tra i canali, elevata complessità computazionale dovuta al self-attention e una guida di denoising grossolana dagli embedding dei timestep quando si gestiscono livelli di rumore variabili. In questo lavoro, proponiamo FEAT, un Transformer con attenzione efficiente a dimensioni complete, che affronta questi problemi attraverso tre innovazioni chiave: (1) un paradigma unificato con meccanismi di attenzione sequenziali spaziali-temporali-canali per catturare le dipendenze globali in tutte le dimensioni, (2) un design a complessità lineare per i meccanismi di attenzione in ciascuna dimensione, utilizzando l'attenzione key-value ponderata e l'attenzione globale sui canali, e (3) un modulo di guida residua sui valori che fornisce una guida fine a livello di pixel per adattarsi a diversi livelli di rumore. Valutiamo FEAT su benchmark standard e task downstream, dimostrando che FEAT-S, con solo il 23% dei parametri del modello all'avanguardia Endora, raggiunge prestazioni comparabili o addirittura superiori. Inoltre, FEAT-L supera tutti i metodi di confronto su più dataset, mostrando sia una superiorità in termini di efficacia che di scalabilità. Il codice è disponibile all'indirizzo https://github.com/Yaziwel/FEAT.
English
Synthesizing high-quality dynamic medical videos remains a significant challenge due to the need for modeling both spatial consistency and temporal dynamics. Existing Transformer-based approaches face critical limitations, including insufficient channel interactions, high computational complexity from self-attention, and coarse denoising guidance from timestep embeddings when handling varying noise levels. In this work, we propose FEAT, a full-dimensional efficient attention Transformer, which addresses these issues through three key innovations: (1) a unified paradigm with sequential spatial-temporal-channel attention mechanisms to capture global dependencies across all dimensions, (2) a linear-complexity design for attention mechanisms in each dimension, utilizing weighted key-value attention and global channel attention, and (3) a residual value guidance module that provides fine-grained pixel-level guidance to adapt to different noise levels. We evaluate FEAT on standard benchmarks and downstream tasks, demonstrating that FEAT-S, with only 23\% of the parameters of the state-of-the-art model Endora, achieves comparable or even superior performance. Furthermore, FEAT-L surpasses all comparison methods across multiple datasets, showcasing both superior effectiveness and scalability. Code is available at https://github.com/Yaziwel/FEAT.
PDF31June 6, 2025