HyPER-GAN: Гибридный патч-ориентированный подход к трансформации изображений для повышения фотореалистичности в реальном времени

Аннотация

Генеративные модели широко применяются для повышения фотореалистичности синтетических данных при обучении алгоритмов компьютерного зрения. Однако они часто вносят визуальные артефакты, которые снижают точность этих алгоритмов и требуют значительных вычислительных ресурсов, что ограничивает их применимость в сценариях обучения или оценки в реальном времени. В данной статье мы предлагаем HyPER-GAN (Generative Adversarial Network с гибридным повышением реализма на уровне патчей) — облегченный метод трансляции "изображение-в-изображение" на основе генератора в стиле U-Net, предназначенный для вывода в реальном времени. Модель обучается с использованием пар синтетических и фотореалистично улучшенных изображений, дополненных гибридной стратегией обучения, которая включает соответствующие патчи из данных реального мира для улучшения визуального реализма и семантической согласованности. Экспериментальные результаты демонстрируют, что HyPER-GAN превосходит современные методы парной трансляции "изображение-в-изображение" по задержке вывода, визуальному реализму и семантической устойчивости. Более того, показано, что предложенная гибридная стратегия обучения действительно улучшает визуальное качество и семантическую согласованность по сравнению с обучением модели только на парах синтетических и фотореалистично улучшенных изображений. Код и предобученные модели общедоступны для загрузки по адресу: https://github.com/stefanos50/HyPER-GAN.

English

Generative models are widely employed to enhance the photorealism of synthetic data for training computer vision algorithms. However, they often introduce visual artifacts that degrade the accuracy of these algorithms and require high computational resources, limiting their applicability in real-time training or evaluation scenarios. In this paper, we propose Hybrid Patch Enhanced Realism Generative Adversarial Network (HyPER-GAN), a lightweight image-to-image translation method based on a U-Net-style generator designed for real-time inference. The model is trained using paired synthetic and photorealism-enhanced images, complemented by a hybrid training strategy that incorporates matched patches from real-world data to improve visual realism and semantic consistency. Experimental results demonstrate that HyPER-GAN outperforms state-of-the-art paired image-to-image translation methods in terms of inference latency, visual realism, and semantic robustness. Moreover, it is illustrated that the proposed hybrid training strategy indeed improves visual quality and semantic consistency compared to training the model solely with paired synthetic and photorealism-enhanced images. Code and pretrained models are publicly available for download at: https://github.com/stefanos50/HyPER-GAN

HyPER-GAN: Гибридный патч-ориентированный подход к трансформации изображений для повышения фотореалистичности в реальном времени

HyPER-GAN: Hybrid Patch-Based Image-to-Image Translation for Real-Time Photorealism Enhancement

Аннотация

Support