U-TTT : Vers un débruitage généralisable d'images TEP via l'entraînement au moment du test

Résumé

Les modèles d'apprentissage profond existants pour le débruitage d'images de tomographie par émission de positons (TEP) souffrent souvent d'une sévère dégradation de leurs performances en présence de changements de distribution, ce qui limite fondamentalement leur déploiement clinique robuste. Ce manque de généralisation provient du paradigme conventionnel des modèles à paramètres fixes, qui ne peuvent pas s'adapter aux variations des données de test (par exemple, les niveaux de dose ou les types de scanners) après l'entraînement. Pour surmonter cette limitation et parvenir à une généralisation robuste, nous présentons U-TTT, un nouveau modèle en forme de U inté grant des couches d'Entraînement au Moment du Test (TTT) afin d'ajuster dynamiquement les paramètres du modèle lors de l'inférence par auto-supervision, s'adaptant ainsi aux caractéristiques spécifiques de chaque instance de test. De plus, pour capturer de manière exhaustive les dégradations complexes des données TEP 3D, U-TTT intègre un mécanisme d'adaptation bi-domaine comprenant une couche d'Entraînement au Moment du Test Spatial (S-TTT) et une couche d'Entraînement au Moment du Test Fréquentiel (F-TTT). La couche S-TTT capture et corrige les dégradations structurelles spatiales, tandis que la couche F-TTT supprime les spectres de bruit globaux et restaure les détails fins haute fréquence. Des expériences approfondies montrent que U-TTT atteint des performances de débruitage TEP de pointe et présente une généralisation supérieure face à des changements de distribution exigeants, incluant à la fois des niveaux de dose inédits et des scanners non rencontrés. Notre code sera disponible à l'adresse https://github.com/Yaziwel/U-TTT.

English

Existing deep learning models for Positron Emission Tomography (PET) image denoising often suffer from severe performance degradation under distribution shifts, fundamentally restricting their robust clinical deployment. This lack of generalization stems from the conventional paradigm of fixed-parameter models that cannot adapt to variations in test data (e.g., dose levels or scanner types) after training. To overcome this limitation and achieve robust generalization, we introduce U-TTT, a novel U-shaped model that integrates Test-Time Training (TTT) layers to dynamically adjust model parameters during inference through self-supervision, thereby adapting to the specific characteristics of each test instance. Furthermore, to comprehensively capture the complex degradations of 3D PET data, U-TTT features a dual-domain adaptation mechanism comprising a Spatial Test-Time Training (S-TTT) layer and a Frequency Test-Time Training (F-TTT) layer. The S-TTT layer captures and corrects spatial structural degradations, while the F-TTT layer suppresses global noise spectra and restores delicate high-frequency details. Extensive experiments demonstrate that U-TTT achieves state-of-the-art PET denoising performance and exhibits superior generalization under challenging distribution shifts, including both unseen dose levels and unseen scanners. Our code will be available at https://github.com/Yaziwel/U-TTT.