FEAT: Transformador de Atención Eficiente de Dimensión Completa para la Generación de Videos Médicos
FEAT: Full-Dimensional Efficient Attention Transformer for Medical Video Generation
June 5, 2025
Autores: Huihan Wang, Zhiwen Yang, Hui Zhang, Dan Zhao, Bingzheng Wei, Yan Xu
cs.AI
Resumen
La síntesis de videos médicos dinámicos de alta calidad sigue siendo un desafío significativo debido a la necesidad de modelar tanto la consistencia espacial como la dinámica temporal. Los enfoques basados en Transformers existentes enfrentan limitaciones críticas, incluyendo interacciones insuficientes entre canales, alta complejidad computacional debido a la autoatención y una guía de eliminación de ruido poco precisa a partir de las incrustaciones de pasos temporales al manejar niveles variables de ruido. En este trabajo, proponemos FEAT, un Transformer de atención eficiente de dimensión completa, que aborda estos problemas a través de tres innovaciones clave: (1) un paradigma unificado con mecanismos de atención secuencial espacial-temporal-canal para capturar dependencias globales en todas las dimensiones, (2) un diseño de complejidad lineal para los mecanismos de atención en cada dimensión, utilizando atención ponderada clave-valor y atención global de canal, y (3) un módulo de guía de valor residual que proporciona orientación a nivel de píxel de grano fino para adaptarse a diferentes niveles de ruido. Evaluamos FEAT en benchmarks estándar y tareas posteriores, demostrando que FEAT-S, con solo el 23\% de los parámetros del modelo de última generación Endora, logra un rendimiento comparable o incluso superior. Además, FEAT-L supera a todos los métodos de comparación en múltiples conjuntos de datos, mostrando tanto una efectividad superior como una escalabilidad destacada. El código está disponible en https://github.com/Yaziwel/FEAT.
English
Synthesizing high-quality dynamic medical videos remains a significant
challenge due to the need for modeling both spatial consistency and temporal
dynamics. Existing Transformer-based approaches face critical limitations,
including insufficient channel interactions, high computational complexity from
self-attention, and coarse denoising guidance from timestep embeddings when
handling varying noise levels. In this work, we propose FEAT, a
full-dimensional efficient attention Transformer, which addresses these issues
through three key innovations: (1) a unified paradigm with sequential
spatial-temporal-channel attention mechanisms to capture global dependencies
across all dimensions, (2) a linear-complexity design for attention mechanisms
in each dimension, utilizing weighted key-value attention and global channel
attention, and (3) a residual value guidance module that provides fine-grained
pixel-level guidance to adapt to different noise levels. We evaluate FEAT on
standard benchmarks and downstream tasks, demonstrating that FEAT-S, with only
23\% of the parameters of the state-of-the-art model Endora, achieves
comparable or even superior performance. Furthermore, FEAT-L surpasses all
comparison methods across multiple datasets, showcasing both superior
effectiveness and scalability. Code is available at
https://github.com/Yaziwel/FEAT.