HyPER-GAN : Traduction hybride par patchs d'image-à-image pour l'amélioration photoréaliste en temps réel

Résumé

Les modèles génératifs sont largement utilisés pour améliorer le photoréalisme des données synthétiques afin d'entraîner des algorithmes de vision par ordinateur. Cependant, ils introduisent souvent des artéfacts visuels qui dégradent la précision de ces algorithmes et nécessitent des ressources computationnelles importantes, limitant leur applicabilité dans des scénarios d'entraînement ou d'évaluation en temps réel. Dans cet article, nous proposons HyPER-GAN (Hybrid Patch Enhanced Realism Generative Adversarial Network), une méthode légère de traduction image-à-image basée sur un générateur de type U-Net conçu pour l'inférence en temps réel. Le modèle est entraîné en utilisant des images synthétiques couplées à des images photoréalistes améliorées, complétées par une stratégie d'entraînement hybride qui intègre des patches appariés issus de données du monde réel pour améliorer le réalisme visuel et la cohérence sémantique. Les résultats expérimentaux démontrent qu'HyPER-GAN surpasse les méthodes état de l'art de traduction image-à-image appariée en termes de latence d'inférence, de réalisme visuel et de robustesse sémantique. De plus, il est illustré que la stratégie d'entraînement hybride proposée améliore effectivement la qualité visuelle et la cohérence sémantique par rapport à l'entraînement du modèle uniquement avec des images synthétiques et photoréalistes améliorées appariées. Le code et les modèles pré-entraînés sont librement disponibles au téléchargement à l'adresse : https://github.com/stefanos50/HyPER-GAN

English

Generative models are widely employed to enhance the photorealism of synthetic data for training computer vision algorithms. However, they often introduce visual artifacts that degrade the accuracy of these algorithms and require high computational resources, limiting their applicability in real-time training or evaluation scenarios. In this paper, we propose Hybrid Patch Enhanced Realism Generative Adversarial Network (HyPER-GAN), a lightweight image-to-image translation method based on a U-Net-style generator designed for real-time inference. The model is trained using paired synthetic and photorealism-enhanced images, complemented by a hybrid training strategy that incorporates matched patches from real-world data to improve visual realism and semantic consistency. Experimental results demonstrate that HyPER-GAN outperforms state-of-the-art paired image-to-image translation methods in terms of inference latency, visual realism, and semantic robustness. Moreover, it is illustrated that the proposed hybrid training strategy indeed improves visual quality and semantic consistency compared to training the model solely with paired synthetic and photorealism-enhanced images. Code and pretrained models are publicly available for download at: https://github.com/stefanos50/HyPER-GAN

HyPER-GAN : Traduction hybride par patchs d'image-à-image pour l'amélioration photoréaliste en temps réel

HyPER-GAN: Hybrid Patch-Based Image-to-Image Translation for Real-Time Photorealism Enhancement

Résumé

Support