U-TTT: Hacia un Denoising Generalizable de Imágenes PET mediante Entrenamiento en Tiempo de Prueba

Resumen

Los modelos de aprendizaje profundo existentes para la eliminación de ruido en imágenes de Tomografía por Emisión de Positrones (PET) a menudo sufren una grave degradación de su rendimiento ante cambios en la distribución, lo que restringe fundamentalmente su despliegue clínico robusto. Esta falta de generalización se deriva del paradigma convencional de modelos de parámetros fijos, que no pueden adaptarse a variaciones en los datos de prueba (por ejemplo, niveles de dosis o tipos de escáner) después del entrenamiento. Para superar esta limitación y lograr una generalización robusta, presentamos U-TTT, un novedoso modelo en forma de U que integra capas de Entrenamiento en Tiempo de Prueba (TTT) para ajustar dinámicamente los parámetros del modelo durante la inferencia mediante auto-supervisión, adaptándose así a las características específicas de cada instancia de prueba. Además, para capturar de manera integral las degradaciones complejas de los datos PET 3D, U-TTT cuenta con un mecanismo de adaptación de dominio dual que comprende una capa de Entrenamiento en Tiempo de Prueba Espacial (S-TTT) y una capa de Entrenamiento en Tiempo de Prueba en Frecuencia (F-TTT). La capa S-TTT captura y corrige las degradaciones estructurales espaciales, mientras que la capa F-TTT suprime los espectros de ruido globales y restaura los delicados detalles de alta frecuencia. Experimentos exhaustivos demuestran que U-TTT logra un rendimiento de eliminación de ruido en PET de última generación y exhibe una generalización superior bajo cambios desafiantes en la distribución, incluyendo tanto niveles de dosis como escáneres no vistos. Nuestro código estará disponible en https://github.com/Yaziwel/U-TTT.

English

Existing deep learning models for Positron Emission Tomography (PET) image denoising often suffer from severe performance degradation under distribution shifts, fundamentally restricting their robust clinical deployment. This lack of generalization stems from the conventional paradigm of fixed-parameter models that cannot adapt to variations in test data (e.g., dose levels or scanner types) after training. To overcome this limitation and achieve robust generalization, we introduce U-TTT, a novel U-shaped model that integrates Test-Time Training (TTT) layers to dynamically adjust model parameters during inference through self-supervision, thereby adapting to the specific characteristics of each test instance. Furthermore, to comprehensively capture the complex degradations of 3D PET data, U-TTT features a dual-domain adaptation mechanism comprising a Spatial Test-Time Training (S-TTT) layer and a Frequency Test-Time Training (F-TTT) layer. The S-TTT layer captures and corrects spatial structural degradations, while the F-TTT layer suppresses global noise spectra and restores delicate high-frequency details. Extensive experiments demonstrate that U-TTT achieves state-of-the-art PET denoising performance and exhibits superior generalization under challenging distribution shifts, including both unseen dose levels and unseen scanners. Our code will be available at https://github.com/Yaziwel/U-TTT.