U-TTT: К обобщаемому шумоподавлению ПЭТ-изображений посредством обучения на этапе тестирования

Аннотация

Существующие модели глубокого обучения для шумоподавления изображений позитронно-эмиссионной томографии (ПЭТ) часто демонстрируют резкое снижение производительности при смещениях распределения, что принципиально ограничивает их надежное клиническое применение. Эта неспособность к обобщению обусловлена традиционной парадигмой моделей с фиксированными параметрами, которые не могут адаптироваться к вариациям тестовых данных (например, уровням дозы или типам сканеров) после обучения. Для преодоления этого ограничения и достижения надежного обобщения мы представляем U-TTT — новую U-образную модель, которая интегрирует слои обучения во время тестирования (Test-Time Training, TTT) для динамической настройки параметров модели в процессе инференса посредством самоконтроля, тем самым адаптируясь к специфическим характеристикам каждого тестового экземпляра. Кроме того, для всестороннего учета сложных искажений трехмерных ПЭТ-данных U-TTT оснащена механизмом двойной адаптации, включающим слой пространственного обучения во время тестирования (S-TTT) и слой частотного обучения во время тестирования (F-TTT). Слой S-TTT захватывает и корректирует пространственные структурные искажения, в то время как слой F-TTT подавляет глобальные спектры шума и восстанавливает тонкие высокочастотные детали. Обширные эксперименты демонстрируют, что U-TTT достигает передовой производительности шумоподавления ПЭТ-изображений и проявляет превосходное обобщение при сложных смещениях распределения, включая как неизвестные уровни дозы, так и неизвестные типы сканеров. Наш код будет доступен по адресу https://github.com/Yaziwel/U-TTT.

English

Existing deep learning models for Positron Emission Tomography (PET) image denoising often suffer from severe performance degradation under distribution shifts, fundamentally restricting their robust clinical deployment. This lack of generalization stems from the conventional paradigm of fixed-parameter models that cannot adapt to variations in test data (e.g., dose levels or scanner types) after training. To overcome this limitation and achieve robust generalization, we introduce U-TTT, a novel U-shaped model that integrates Test-Time Training (TTT) layers to dynamically adjust model parameters during inference through self-supervision, thereby adapting to the specific characteristics of each test instance. Furthermore, to comprehensively capture the complex degradations of 3D PET data, U-TTT features a dual-domain adaptation mechanism comprising a Spatial Test-Time Training (S-TTT) layer and a Frequency Test-Time Training (F-TTT) layer. The S-TTT layer captures and corrects spatial structural degradations, while the F-TTT layer suppresses global noise spectra and restores delicate high-frequency details. Extensive experiments demonstrate that U-TTT achieves state-of-the-art PET denoising performance and exhibits superior generalization under challenging distribution shifts, including both unseen dose levels and unseen scanners. Our code will be available at https://github.com/Yaziwel/U-TTT.