HyPER-GAN: Tradução de Imagem para Imagem Baseada em Fragmentos Híbridos para Aprimoramento de Foto-Realismo em Tempo Real

Resumo

Os modelos generativos são amplamente utilizados para melhorar o foto-realismo de dados sintéticos no treinamento de algoritmos de visão computacional. No entanto, eles frequentemente introduzem artefatos visuais que degradam a precisão desses algoritmos e exigem recursos computacionais elevados, limitando sua aplicabilidade em cenários de treinamento ou avaliação em tempo real. Neste artigo, propomos a Hybrid Patch Enhanced Realism Generative Adversarial Network (HyPER-GAN), um método leve de tradução imagem-a-imagem baseado num gerador de arquitetura U-Net, projetado para inferência em tempo real. O modelo é treinado utilizando pares de imagens sintéticas e com foto-realismo aprimorado, complementado por uma estratégia de treinamento híbrida que incorpora *patches* correspondentes de dados do mundo real para melhorar o realismo visual e a consistência semântica. Resultados experimentais demonstram que a HyPER-GAN supera os métodos estado da arte de tradução imagem-a-imagem pareada em termos de latência de inferência, realismo visual e robustez semântica. Adicionalmente, ilustra-se que a estratégia de treinamento híbrida proposta realmente melhora a qualidade visual e a consistência semântica em comparação com o treinamento do modelo apenas com pares de imagens sintéticas e com foto-realismo aprimorado. O código e os modelos pré-treinados estão publicamente disponíveis para download em: https://github.com/stefanos50/HyPER-GAN

English

Generative models are widely employed to enhance the photorealism of synthetic data for training computer vision algorithms. However, they often introduce visual artifacts that degrade the accuracy of these algorithms and require high computational resources, limiting their applicability in real-time training or evaluation scenarios. In this paper, we propose Hybrid Patch Enhanced Realism Generative Adversarial Network (HyPER-GAN), a lightweight image-to-image translation method based on a U-Net-style generator designed for real-time inference. The model is trained using paired synthetic and photorealism-enhanced images, complemented by a hybrid training strategy that incorporates matched patches from real-world data to improve visual realism and semantic consistency. Experimental results demonstrate that HyPER-GAN outperforms state-of-the-art paired image-to-image translation methods in terms of inference latency, visual realism, and semantic robustness. Moreover, it is illustrated that the proposed hybrid training strategy indeed improves visual quality and semantic consistency compared to training the model solely with paired synthetic and photorealism-enhanced images. Code and pretrained models are publicly available for download at: https://github.com/stefanos50/HyPER-GAN

HyPER-GAN: Tradução de Imagem para Imagem Baseada em Fragmentos Híbridos para Aprimoramento de Foto-Realismo em Tempo Real

HyPER-GAN: Hybrid Patch-Based Image-to-Image Translation for Real-Time Photorealism Enhancement

Resumo

Support