FEAT: Full-Dimensionale Efficiënte Attention Transformer voor Medische Videogeneratie
FEAT: Full-Dimensional Efficient Attention Transformer for Medical Video Generation
June 5, 2025
Auteurs: Huihan Wang, Zhiwen Yang, Hui Zhang, Dan Zhao, Bingzheng Wei, Yan Xu
cs.AI
Samenvatting
Het synthetiseren van hoogwaardige dynamische medische video's blijft een aanzienlijke uitdaging vanwege de noodzaak om zowel ruimtelijke consistentie als temporele dynamiek te modelleren. Bestaande Transformer-gebaseerde benaderingen kampen met kritieke beperkingen, waaronder onvoldoende kanaalinteracties, hoge computationele complexiteit door self-attention, en grove ruisreductiebegeleiding door timestep-embeddings bij het omgaan met variërende ruisniveaus. In dit werk stellen we FEAT voor, een full-dimensionale efficiënte aandachtstransformer, die deze problemen aanpakt via drie belangrijke innovaties: (1) een uniform paradigma met sequentiële ruimtelijk-temporeel-kanaal aandachtmechanismen om globale afhankelijkheden over alle dimensies vast te leggen, (2) een lineaire-complexiteit ontwerp voor aandachtmechanismen in elke dimensie, gebruikmakend van gewogen sleutel-waarde aandacht en globale kanaalaandacht, en (3) een residuwaarde-begeleidingsmodule die fijnmazige pixel-niveau begeleiding biedt om zich aan te passen aan verschillende ruisniveaus. We evalueren FEAT op standaard benchmarks en downstream taken, waarbij we aantonen dat FEAT-S, met slechts 23% van de parameters van het state-of-the-art model Endora, vergelijkbare of zelfs superieure prestaties bereikt. Bovendien overtreft FEAT-L alle vergelijkingsmethoden over meerdere datasets, wat zowel superieure effectiviteit als schaalbaarheid aantoont. De code is beschikbaar op https://github.com/Yaziwel/FEAT.
English
Synthesizing high-quality dynamic medical videos remains a significant
challenge due to the need for modeling both spatial consistency and temporal
dynamics. Existing Transformer-based approaches face critical limitations,
including insufficient channel interactions, high computational complexity from
self-attention, and coarse denoising guidance from timestep embeddings when
handling varying noise levels. In this work, we propose FEAT, a
full-dimensional efficient attention Transformer, which addresses these issues
through three key innovations: (1) a unified paradigm with sequential
spatial-temporal-channel attention mechanisms to capture global dependencies
across all dimensions, (2) a linear-complexity design for attention mechanisms
in each dimension, utilizing weighted key-value attention and global channel
attention, and (3) a residual value guidance module that provides fine-grained
pixel-level guidance to adapt to different noise levels. We evaluate FEAT on
standard benchmarks and downstream tasks, demonstrating that FEAT-S, with only
23\% of the parameters of the state-of-the-art model Endora, achieves
comparable or even superior performance. Furthermore, FEAT-L surpasses all
comparison methods across multiple datasets, showcasing both superior
effectiveness and scalability. Code is available at
https://github.com/Yaziwel/FEAT.