HyPER-GAN: Traducción de Imagen a Imagen Híbrida Basada en Parches para la Mejora del Fotorrealismo en Tiempo Real

Resumen

Los modelos generativos se emplean ampliamente para mejorar el fotorrealismo de datos sintéticos utilizados en el entrenamiento de algoritmos de visión por computadora. Sin embargo, a menudo introducen artefactos visuales que degradan la precisión de estos algoritmos y requieren altos recursos computacionales, lo que limita su aplicabilidad en escenarios de entrenamiento o evaluación en tiempo real. En este artículo, proponemos HyPER-GAN (Red Generativa Antagónica de Realismo Mejorado con Parches Híbridos), un método liviano de traducción de imagen a imagen basado en un generador de estilo U-Net diseñado para inferencia en tiempo real. El modelo se entrena utilizando imágenes sintéticas emparejadas con versiones mejoradas fotorealísticamente, complementado con una estrategia de entrenamiento híbrida que incorpora parches coincidentes de datos del mundo real para mejorar el realismo visual y la consistencia semántica. Los resultados experimentales demuestran que HyPER-GAN supera a los métodos más avanzados de traducción de imagen a imagen con pares en términos de latencia de inferencia, realismo visual y robustez semántica. Además, se ilustra que la estrategia de entrenamiento híbrida propuesta mejora efectivamente la calidad visual y la consistencia semántica en comparación con entrenar el modelo únicamente con pares de imágenes sintéticas y mejoradas fotorealísticamente. El código y los modelos preentrenados están disponibles públicamente para su descarga en: https://github.com/stefanos50/HyPER-GAN.

English

Generative models are widely employed to enhance the photorealism of synthetic data for training computer vision algorithms. However, they often introduce visual artifacts that degrade the accuracy of these algorithms and require high computational resources, limiting their applicability in real-time training or evaluation scenarios. In this paper, we propose Hybrid Patch Enhanced Realism Generative Adversarial Network (HyPER-GAN), a lightweight image-to-image translation method based on a U-Net-style generator designed for real-time inference. The model is trained using paired synthetic and photorealism-enhanced images, complemented by a hybrid training strategy that incorporates matched patches from real-world data to improve visual realism and semantic consistency. Experimental results demonstrate that HyPER-GAN outperforms state-of-the-art paired image-to-image translation methods in terms of inference latency, visual realism, and semantic robustness. Moreover, it is illustrated that the proposed hybrid training strategy indeed improves visual quality and semantic consistency compared to training the model solely with paired synthetic and photorealism-enhanced images. Code and pretrained models are publicly available for download at: https://github.com/stefanos50/HyPER-GAN

HyPER-GAN: Traducción de Imagen a Imagen Híbrida Basada en Parches para la Mejora del Fotorrealismo en Tiempo Real

HyPER-GAN: Hybrid Patch-Based Image-to-Image Translation for Real-Time Photorealism Enhancement

Resumen

Support