HyPER-GAN: Traduzione Immagine-Immagine Ibrida Basata su Patch per il Miglioramento del Fotorealismo in Tempo Reale

Abstract

I modelli generativi sono ampiamente utilizzati per migliorare il fotorealismo dei dati sintetici nell'addestramento di algoritmi di computer vision. Tuttavia, essi introducono spesso artefatti visivi che degradano l'accuratezza di tali algoritmi e richiedono elevate risorse computazionali, limitandone l'applicabilità in scenari di addestramento o valutazione in tempo reale. In questo articolo, proponiamo Hybrid Patch Enhanced Realism Generative Adversarial Network (HyPER-GAN), un metodo leggero di traduzione immagine-immagine basato su un generatore in stile U-Net progettato per l'inferenza in tempo reale. Il modello viene addestrato utilizzando immagini sintetiche accoppiate a versioni con fotorealismo migliorato, integrate da una strategia di addestramento ibrida che incorpora patch corrispondenti provenienti da dati del mondo reale per migliorare il realismo visivo e la coerenza semantica. I risultati sperimentali dimostrano che HyPER-GAN supera i metodi all'avanguardia per la traduzione immagine-immagine con dati accoppiati in termini di latenza di inferenza, realismo visivo e robustezza semantica. Inoltre, viene illustrato come la strategia di addestramento ibrida proposta migliori effettivamente la qualità visiva e la coerenza semantica rispetto all'addestramento del modello esclusivamente con immagini sintetiche accoppiate a versioni con fotorealismo migliorato. Il codice e i modelli pre-addestrati sono pubblicamente disponibili per il download al seguente indirizzo: https://github.com/stefanos50/HyPER-GAN

English

Generative models are widely employed to enhance the photorealism of synthetic data for training computer vision algorithms. However, they often introduce visual artifacts that degrade the accuracy of these algorithms and require high computational resources, limiting their applicability in real-time training or evaluation scenarios. In this paper, we propose Hybrid Patch Enhanced Realism Generative Adversarial Network (HyPER-GAN), a lightweight image-to-image translation method based on a U-Net-style generator designed for real-time inference. The model is trained using paired synthetic and photorealism-enhanced images, complemented by a hybrid training strategy that incorporates matched patches from real-world data to improve visual realism and semantic consistency. Experimental results demonstrate that HyPER-GAN outperforms state-of-the-art paired image-to-image translation methods in terms of inference latency, visual realism, and semantic robustness. Moreover, it is illustrated that the proposed hybrid training strategy indeed improves visual quality and semantic consistency compared to training the model solely with paired synthetic and photorealism-enhanced images. Code and pretrained models are publicly available for download at: https://github.com/stefanos50/HyPER-GAN

HyPER-GAN: Traduzione Immagine-Immagine Ibrida Basata su Patch per il Miglioramento del Fotorealismo in Tempo Reale

HyPER-GAN: Hybrid Patch-Based Image-to-Image Translation for Real-Time Photorealism Enhancement

Abstract

Support