Разреженные данные, богатые результаты: обучение с малым количеством примеров в полуконтролируемом режиме через трансляцию изображений, обусловленных классами

Аннотация

Глубокое обучение произвело революцию в медицинской визуализации, однако его эффективность серьезно ограничена недостаточным количеством размеченных данных для обучения. В данной статье представлена новая полуконтролируемая обучающая система на основе генеративно-состязательных сетей (GAN), специально разработанная для условий с малым количеством размеченных данных, оцененная в условиях от 5 до 50 размеченных образцов на класс. Наш подход интегрирует три специализированные нейронные сети — генератор для условного преобразования изображений, дискриминатор для оценки подлинности и классификации, а также отдельный классификатор — в рамках трехэтапной обучающей системы. Метод чередует контролируемое обучение на ограниченных размеченных данных и неконтролируемое обучение, которое использует большое количество неразмеченных изображений через преобразование изображений, а не генерацию из шума. Мы применяем псевдоразметку на основе ансамбля, которая объединяет взвешенные по уверенности предсказания дискриминатора и классификатора с временной согласованностью через экспоненциальное скользящее усреднение, что позволяет надежно оценивать метки для неразмеченных данных. Всесторонняя оценка на одиннадцати наборах данных MedMNIST демонстрирует, что наш подход достигает статистически значимых улучшений по сравнению с шестью современными полуконтролируемыми методами на основе GAN, особенно выделяясь в экстремальных условиях с 5 образцами на класс, где нехватка размеченных данных наиболее критична. Система сохраняет свое превосходство во всех оцененных условиях (5, 10, 20 и 50 образцов на класс). Наш подход предлагает практическое решение для задач медицинской визуализации, где затраты на аннотацию чрезмерно высоки, обеспечивая надежную классификацию даже при минимальном количестве размеченных данных. Код доступен по адресу https://github.com/GuidoManni/SPARSE.

English

Deep learning has revolutionized medical imaging, but its effectiveness is severely limited by insufficient labeled training data. This paper introduces a novel GAN-based semi-supervised learning framework specifically designed for low labeled-data regimes, evaluated across settings with 5 to 50 labeled samples per class. Our approach integrates three specialized neural networks -- a generator for class-conditioned image translation, a discriminator for authenticity assessment and classification, and a dedicated classifier -- within a three-phase training framework. The method alternates between supervised training on limited labeled data and unsupervised learning that leverages abundant unlabeled images through image-to-image translation rather than generation from noise. We employ ensemble-based pseudo-labeling that combines confidence-weighted predictions from the discriminator and classifier with temporal consistency through exponential moving averaging, enabling reliable label estimation for unlabeled data. Comprehensive evaluation across eleven MedMNIST datasets demonstrates that our approach achieves statistically significant improvements over six state-of-the-art GAN-based semi-supervised methods, with particularly strong performance in the extreme 5-shot setting where the scarcity of labeled data is most challenging. The framework maintains its superiority across all evaluated settings (5, 10, 20, and 50 shots per class). Our approach offers a practical solution for medical imaging applications where annotation costs are prohibitive, enabling robust classification performance even with minimal labeled data. Code is available at https://github.com/GuidoManni/SPARSE.