U-TTT: Rumo ao Desruído Generalizável de Imagens PET via Treinamento em Tempo de Teste

Resumo

Modelos de aprendizado profundo existentes para a redução de ruído em imagens de Tomografia por Emissão de Pósitrons (PET) frequentemente sofrem de degradação severa de desempenho sob mudanças de distribuição, o que fundamentalmente restringe sua implantação clínica robusta. Essa falta de generalização decorre do paradigma convencional de modelos de parâmetros fixos, que não conseguem se adaptar a variações nos dados de teste (por exemplo, níveis de dose ou tipos de scanner) após o treinamento. Para superar essa limitação e alcançar uma generalização robusta, apresentamos o U-TTT, um novo modelo em forma de U que integra camadas de Treinamento em Tempo de Teste (TTT) para ajustar dinamicamente os parâmetros do modelo durante a inferência por meio de autossupervisão, adaptando-se assim às características específicas de cada instância de teste. Além disso, para capturar de forma abrangente as degradações complexas dos dados PET 3D, o U-TTT possui um mecanismo de adaptação em domínio duplo, composto por uma camada de Treinamento em Tempo de Teste Espacial (S-TTT) e uma camada de Treinamento em Tempo de Teste em Frequência (F-TTT). A camada S-TTT captura e corrige degradações estruturais espaciais, enquanto a camada F-TTT suprime espectros de ruído globais e restaura delicados detalhes de alta frequência. Experimentos extensos demonstram que o U-TTT alcança desempenho de redução de ruído PET estado da arte e exibe generalização superior sob mudanças desafiadoras de distribuição, incluindo tanto níveis de dose não vistos quanto scanners não vistos. Nosso código estará disponível em https://github.com/Yaziwel/U-TTT.

English

Existing deep learning models for Positron Emission Tomography (PET) image denoising often suffer from severe performance degradation under distribution shifts, fundamentally restricting their robust clinical deployment. This lack of generalization stems from the conventional paradigm of fixed-parameter models that cannot adapt to variations in test data (e.g., dose levels or scanner types) after training. To overcome this limitation and achieve robust generalization, we introduce U-TTT, a novel U-shaped model that integrates Test-Time Training (TTT) layers to dynamically adjust model parameters during inference through self-supervision, thereby adapting to the specific characteristics of each test instance. Furthermore, to comprehensively capture the complex degradations of 3D PET data, U-TTT features a dual-domain adaptation mechanism comprising a Spatial Test-Time Training (S-TTT) layer and a Frequency Test-Time Training (F-TTT) layer. The S-TTT layer captures and corrects spatial structural degradations, while the F-TTT layer suppresses global noise spectra and restores delicate high-frequency details. Extensive experiments demonstrate that U-TTT achieves state-of-the-art PET denoising performance and exhibits superior generalization under challenging distribution shifts, including both unseen dose levels and unseen scanners. Our code will be available at https://github.com/Yaziwel/U-TTT.