FEAT: Transformador de Atenção Eficiente em Dimensão Completa para Geração de Vídeos Médicos
FEAT: Full-Dimensional Efficient Attention Transformer for Medical Video Generation
June 5, 2025
Autores: Huihan Wang, Zhiwen Yang, Hui Zhang, Dan Zhao, Bingzheng Wei, Yan Xu
cs.AI
Resumo
A síntese de vídeos médicos dinâmicos de alta qualidade continua sendo um desafio significativo devido à necessidade de modelar tanto a consistência espacial quanto a dinâmica temporal. As abordagens baseadas em Transformers existentes enfrentam limitações críticas, incluindo interações insuficientes entre canais, alta complexidade computacional decorrente do mecanismo de self-attention e orientação de denoising grosseira proveniente de embeddings de timesteps ao lidar com níveis variáveis de ruído. Neste trabalho, propomos o FEAT, um Transformer de atenção eficiente em todas as dimensões, que aborda essas questões por meio de três inovações principais: (1) um paradigma unificado com mecanismos sequenciais de atenção espacial-temporal-canal para capturar dependências globais em todas as dimensões, (2) um design de complexidade linear para mecanismos de atenção em cada dimensão, utilizando atenção ponderada de chave-valor e atenção global de canal, e (3) um módulo de orientação de valor residual que fornece orientação em nível de pixel refinada para se adaptar a diferentes níveis de ruído. Avaliamos o FEAT em benchmarks padrão e tarefas subsequentes, demonstrando que o FEAT-S, com apenas 23\% dos parâmetros do modelo state-of-the-art Endora, alcança desempenho comparável ou até superior. Além disso, o FEAT-L supera todos os métodos de comparação em múltiplos conjuntos de dados, mostrando tanto eficácia superior quanto escalabilidade. O código está disponível em https://github.com/Yaziwel/FEAT.
English
Synthesizing high-quality dynamic medical videos remains a significant
challenge due to the need for modeling both spatial consistency and temporal
dynamics. Existing Transformer-based approaches face critical limitations,
including insufficient channel interactions, high computational complexity from
self-attention, and coarse denoising guidance from timestep embeddings when
handling varying noise levels. In this work, we propose FEAT, a
full-dimensional efficient attention Transformer, which addresses these issues
through three key innovations: (1) a unified paradigm with sequential
spatial-temporal-channel attention mechanisms to capture global dependencies
across all dimensions, (2) a linear-complexity design for attention mechanisms
in each dimension, utilizing weighted key-value attention and global channel
attention, and (3) a residual value guidance module that provides fine-grained
pixel-level guidance to adapt to different noise levels. We evaluate FEAT on
standard benchmarks and downstream tasks, demonstrating that FEAT-S, with only
23\% of the parameters of the state-of-the-art model Endora, achieves
comparable or even superior performance. Furthermore, FEAT-L surpasses all
comparison methods across multiple datasets, showcasing both superior
effectiveness and scalability. Code is available at
https://github.com/Yaziwel/FEAT.