HyPER-GAN: Hybride patchbasierte Bild-zu-Bild-Übersetzung zur Echtzeit-Photorealismus-Verbesserung

Zusammenfassung

Generative Modelle werden häufig eingesetzt, um den Photorealismus synthetischer Daten für das Training von Computer-Vision-Algorithmen zu verbessern. Allerdings führen sie oft zu visuellen Artefakten, welche die Genauigkeit dieser Algorithmen beeinträchtigen, und erfordern hohe Rechenressourcen, was ihre Anwendbarkeit in Echtzeit-Trainings- oder Evaluierungsszenarien einschränkt. In diesem Beitrag stellen wir HyPER-GAN (Hybrid Patch Enhanced Realism Generative Adversarial Network) vor, eine leichtgewichtige Bild-zu-Bild-Übersetzungsmethode auf Basis eines U-Net-artigen Generators, die für Echtzeitinferenz konzipiert ist. Das Modell wird mit gepaarten synthetischen und photorealismus-verbesserten Bildern trainiert, ergänzt durch eine hybride Trainingsstrategie, die übereinstimmende Bildausschnitte aus Realweltdaten einbezieht, um den visuellen Realismus und die semantische Konsistenz zu verbessern. Experimentelle Ergebnisse zeigen, dass HyPER-GAN state-of-the-art Methoden der gepaarten Bild-zu-Bild-Übersetzung hinsichtlich Inferenzlatenz, visuellem Realismus und semantischer Robustheit übertrifft. Darüber hinaus wird verdeutlicht, dass die vorgeschlagene hybride Trainingsstrategie im Vergleich zum Training des Modells ausschließlich mit gepaarten synthetischen und photorealismus-verbesserten Bildern tatsächlich die visuelle Qualität und semantische Konsistenz verbessert. Code und vortrainierte Modelle sind öffentlich unter folgender Adresse verfügbar: https://github.com/stefanos50/HyPER-GAN

English

Generative models are widely employed to enhance the photorealism of synthetic data for training computer vision algorithms. However, they often introduce visual artifacts that degrade the accuracy of these algorithms and require high computational resources, limiting their applicability in real-time training or evaluation scenarios. In this paper, we propose Hybrid Patch Enhanced Realism Generative Adversarial Network (HyPER-GAN), a lightweight image-to-image translation method based on a U-Net-style generator designed for real-time inference. The model is trained using paired synthetic and photorealism-enhanced images, complemented by a hybrid training strategy that incorporates matched patches from real-world data to improve visual realism and semantic consistency. Experimental results demonstrate that HyPER-GAN outperforms state-of-the-art paired image-to-image translation methods in terms of inference latency, visual realism, and semantic robustness. Moreover, it is illustrated that the proposed hybrid training strategy indeed improves visual quality and semantic consistency compared to training the model solely with paired synthetic and photorealism-enhanced images. Code and pretrained models are publicly available for download at: https://github.com/stefanos50/HyPER-GAN

HyPER-GAN: Hybride patchbasierte Bild-zu-Bild-Übersetzung zur Echtzeit-Photorealismus-Verbesserung

HyPER-GAN: Hybrid Patch-Based Image-to-Image Translation for Real-Time Photorealism Enhancement

Zusammenfassung

Support