ChatPaper.aiChatPaper

FEAT: Полномерный эффективный трансформер внимания для генерации медицинских видео

FEAT: Full-Dimensional Efficient Attention Transformer for Medical Video Generation

June 5, 2025
Авторы: Huihan Wang, Zhiwen Yang, Hui Zhang, Dan Zhao, Bingzheng Wei, Yan Xu
cs.AI

Аннотация

Синтез высококачественных динамических медицинских видеозаписей остается серьезной задачей из-за необходимости моделирования как пространственной согласованности, так и временной динамики. Существующие подходы на основе трансформеров сталкиваются с критическими ограничениями, включая недостаточное взаимодействие каналов, высокую вычислительную сложность из-за механизмов самовнимания и грубое шумоподавление, обусловленное встраиванием временных шагов при обработке различных уровней шума. В данной работе мы предлагаем FEAT — трансформер с эффективным вниманием во всех измерениях, который решает эти проблемы за счет трех ключевых инноваций: (1) унифицированная парадигма с последовательными механизмами внимания в пространственно-временных и канальных измерениях для захвата глобальных зависимостей во всех измерениях, (2) линейно-сложностная архитектура механизмов внимания в каждом измерении, использующая взвешенное внимание по ключевым значениям и глобальное внимание по каналам, и (3) модуль остаточного управления значениями, обеспечивающий детализированное управление на уровне пикселей для адаптации к различным уровням шума. Мы оцениваем FEAT на стандартных тестовых наборах и задачах, демонстрируя, что FEAT-S, имея всего 23% параметров от современной модели Endora, достигает сопоставимой или даже превосходящей производительности. Более того, FEAT-L превосходит все сравниваемые методы на нескольких наборах данных, демонстрируя как превосходную эффективность, так и масштабируемость. Код доступен по адресу https://github.com/Yaziwel/FEAT.
English
Synthesizing high-quality dynamic medical videos remains a significant challenge due to the need for modeling both spatial consistency and temporal dynamics. Existing Transformer-based approaches face critical limitations, including insufficient channel interactions, high computational complexity from self-attention, and coarse denoising guidance from timestep embeddings when handling varying noise levels. In this work, we propose FEAT, a full-dimensional efficient attention Transformer, which addresses these issues through three key innovations: (1) a unified paradigm with sequential spatial-temporal-channel attention mechanisms to capture global dependencies across all dimensions, (2) a linear-complexity design for attention mechanisms in each dimension, utilizing weighted key-value attention and global channel attention, and (3) a residual value guidance module that provides fine-grained pixel-level guidance to adapt to different noise levels. We evaluate FEAT on standard benchmarks and downstream tasks, demonstrating that FEAT-S, with only 23\% of the parameters of the state-of-the-art model Endora, achieves comparable or even superior performance. Furthermore, FEAT-L surpasses all comparison methods across multiple datasets, showcasing both superior effectiveness and scalability. Code is available at https://github.com/Yaziwel/FEAT.
PDF31June 6, 2025