Ein hybrider Ansatz zur Schließung der Sim2Real-Erscheinungslücke in synthetischen Spiel-Engine-Datensätzen

Zusammenfassung

Videospiel-Engines stellen eine wichtige Quelle zur Erzeugung großer Mengen visueller synthetischer Datensätze für das Training und die Evaluierung von Computer-Vision-Algorithmen dar, die in der realen Welt eingesetzt werden sollen. Obwohl die visuelle Detailtreue moderner Game Engines durch Technologien wie Raytracing erheblich verbessert wurde, besteht weiterhin eine merkliche Sim2Real-Darstellungslücke zwischen synthetischen und realen Bildern, was die Nutzung synthetischer Datensätze in realen Anwendungen einschränkt. In diesem Beitrag untersuchen wir die Fähigkeit eines modernen Diffusionsmodells zur Bildgenerierung und -bearbeitung (FLUX.2-4B Klein), den Fotorealismus synthetischer Datensätze zu verbessern, und vergleichen seine Leistung mit einem traditionellen Image-to-Image-Übersetzungsmodell (REGEN). Darüber hinaus schlagen wir einen hybriden Ansatz vor, der die starken Geometrie- und Materialtransformationen diffusionsbasierter Methoden mit den Distributionsanpassungsfähigkeiten von Image-to-Image-Übersetzungstechniken kombiniert. Experimente zeigen, dass REGEN FLUX.2-4B Klein übertrifft und dass durch die Kombination beider Modelle ein besserer visueller Realismus erreicht werden kann als bei der einzelnen Verwendung, bei gleichzeitiger Wahrung der semantischen Konsistenz. Der Code ist verfügbar unter: https://github.com/stefanos50/Hybrid-Sim2Real

English

Video game engines have been an important source for generating large volumes of visual synthetic datasets for training and evaluating computer vision algorithms that are to be deployed in the real world. While the visual fidelity of modern game engines has been significantly improved with technologies such as ray-tracing, a notable sim2real appearance gap between the synthetic and the real-world images still remains, which limits the utilization of synthetic datasets in real-world applications. In this letter, we investigate the ability of a state-of-the-art image generation and editing diffusion model (FLUX.2-4B Klein) to enhance the photorealism of synthetic datasets and compare its performance against a traditional image-to-image translation model (REGEN). Furthermore, we propose a hybrid approach that combines the strong geometry and material transformations of diffusion-based methods with the distribution-matching capabilities of image-to-image translation techniques. Through experiments, it is demonstrated that REGEN outperforms FLUX.2-4B Klein and that by combining both FLUX.2-4B Klein and REGEN models, better visual realism can be achieved compared to using each model individually, while maintaining semantic consistency. The code is available at: https://github.com/stefanos50/Hybrid-Sim2Real

Ein hybrider Ansatz zur Schließung der Sim2Real-Erscheinungslücke in synthetischen Spiel-Engine-Datensätzen

A Hybrid Approach for Closing the Sim2real Appearance Gap in Game Engine Synthetic Datasets

Zusammenfassung

Support