Dati SPARSI, Risultati Ricchi: Apprendimento Semi-Supervisionato Few-Shot tramite Traduzione di Immagini Condizionata alla Classe
SPARSE Data, Rich Results: Few-Shot Semi-Supervised Learning via Class-Conditioned Image Translation
August 8, 2025
Autori: Guido Manni, Clemente Lauretti, Loredana Zollo, Paolo Soda
cs.AI
Abstract
Il deep learning ha rivoluzionato l'imaging medico, ma la sua efficacia è gravemente limitata dalla carenza di dati di training etichettati. Questo articolo introduce un nuovo framework di apprendimento semi-supervisionato basato su GAN, progettato specificamente per regimi con pochi dati etichettati, valutato in contesti con 5 a 50 campioni etichettati per classe. Il nostro approccio integra tre reti neurali specializzate — un generatore per la traduzione di immagini condizionata alla classe, un discriminatore per la valutazione dell'autenticità e la classificazione, e un classificatore dedicato — all'interno di un framework di training a tre fasi. Il metodo alterna tra training supervisionato su dati etichettati limitati e apprendimento non supervisionato che sfrutta un'abbondanza di immagini non etichettate attraverso la traduzione da immagine a immagine piuttosto che la generazione da rumore. Utilizziamo un pseudo-labeling basato su ensemble che combina previsioni ponderate per confidenza dal discriminatore e dal classificatore con consistenza temporale attraverso la media mobile esponenziale, consentendo una stima affidabile delle etichette per i dati non etichettati. Una valutazione completa su undici dataset MedMNIST dimostra che il nostro approccio ottiene miglioramenti statisticamente significativi rispetto a sei metodi semi-supervisionati basati su GAN all'avanguardia, con prestazioni particolarmente forti nell'estremo contesto 5-shot dove la scarsità di dati etichettati è più impegnativa. Il framework mantiene la sua superiorità in tutti i contesti valutati (5, 10, 20 e 50 shot per classe). Il nostro approccio offre una soluzione pratica per applicazioni di imaging medico dove i costi di annotazione sono proibitivi, consentendo prestazioni di classificazione robuste anche con dati etichettati minimi. Il codice è disponibile all'indirizzo https://github.com/GuidoManni/SPARSE.
English
Deep learning has revolutionized medical imaging, but its effectiveness is
severely limited by insufficient labeled training data. This paper introduces a
novel GAN-based semi-supervised learning framework specifically designed for
low labeled-data regimes, evaluated across settings with 5 to 50 labeled
samples per class. Our approach integrates three specialized neural networks --
a generator for class-conditioned image translation, a discriminator for
authenticity assessment and classification, and a dedicated classifier --
within a three-phase training framework. The method alternates between
supervised training on limited labeled data and unsupervised learning that
leverages abundant unlabeled images through image-to-image translation rather
than generation from noise. We employ ensemble-based pseudo-labeling that
combines confidence-weighted predictions from the discriminator and classifier
with temporal consistency through exponential moving averaging, enabling
reliable label estimation for unlabeled data. Comprehensive evaluation across
eleven MedMNIST datasets demonstrates that our approach achieves statistically
significant improvements over six state-of-the-art GAN-based semi-supervised
methods, with particularly strong performance in the extreme 5-shot setting
where the scarcity of labeled data is most challenging. The framework maintains
its superiority across all evaluated settings (5, 10, 20, and 50 shots per
class). Our approach offers a practical solution for medical imaging
applications where annotation costs are prohibitive, enabling robust
classification performance even with minimal labeled data. Code is available at
https://github.com/GuidoManni/SPARSE.