U-TTT: Zur generalisierbaren PET-Bildentrauschung mittels Testzeit-Training

Zusammenfassung

Bestehende Deep-Learning-Modelle zur Entrauschung von Positronenemissionstomographie (PET)-Bildern leiden häufig unter einer starken Leistungseinbuße bei Verteilungsverschiebungen, was ihren robusten klinischen Einsatz grundlegend einschränkt. Diese mangelnde Generalisierungsfähigkeit beruht auf dem konventionellen Paradigma von Modellen mit festen Parametern, die sich nach dem Training nicht an Variationen in den Testdaten (z. B. Dosisstufen oder Scannertypen) anpassen können. Um diese Einschränkung zu überwinden und eine robuste Generalisierung zu erreichen, führen wir U-TTT ein, ein neuartiges U-förmiges Modell, das Testzeit-Training (TTT)-Schichten integriert, um die Modellparameter während der Inferenz durch Selbstüberwachung dynamisch anzupassen und sich so an die spezifischen Merkmale jeder Testinstanz anzupassen. Darüber hinaus verfügt U-TTT über einen Dual-Domain-Anpassungsmechanismus, bestehend aus einer räumlichen Testzeit-Training (S-TTT)-Schicht und einer Frequenz-Testzeit-Training (F-TTT)-Schicht, um die komplexen Beeinträchtigungen von 3D-PET-Daten umfassend zu erfassen. Die S-TTT-Schicht erfasst und korrigiert räumliche strukturelle Beeinträchtigungen, während die F-TTT-Schicht globale Rauschspektren unterdrückt und feine hochfrequente Details wiederherstellt. Umfangreiche Experimente zeigen, dass U-TTT eine Spitzenleistung bei der PET-Entrauschung erzielt und eine überlegene Generalisierung unter anspruchsvollen Verteilungsverschiebungen aufweist, einschließlich sowohl unbekannter Dosisstufen als auch unbekannter Scanner. Unser Code wird unter https://github.com/Yaziwel/U-TTT verfügbar sein.

English

Existing deep learning models for Positron Emission Tomography (PET) image denoising often suffer from severe performance degradation under distribution shifts, fundamentally restricting their robust clinical deployment. This lack of generalization stems from the conventional paradigm of fixed-parameter models that cannot adapt to variations in test data (e.g., dose levels or scanner types) after training. To overcome this limitation and achieve robust generalization, we introduce U-TTT, a novel U-shaped model that integrates Test-Time Training (TTT) layers to dynamically adjust model parameters during inference through self-supervision, thereby adapting to the specific characteristics of each test instance. Furthermore, to comprehensively capture the complex degradations of 3D PET data, U-TTT features a dual-domain adaptation mechanism comprising a Spatial Test-Time Training (S-TTT) layer and a Frequency Test-Time Training (F-TTT) layer. The S-TTT layer captures and corrects spatial structural degradations, while the F-TTT layer suppresses global noise spectra and restores delicate high-frequency details. Extensive experiments demonstrate that U-TTT achieves state-of-the-art PET denoising performance and exhibits superior generalization under challenging distribution shifts, including both unseen dose levels and unseen scanners. Our code will be available at https://github.com/Yaziwel/U-TTT.