Гибридный подход к устранению разрыва в визуальном представлении между синтетическими данными игрового движка и реальными условиями

Аннотация

Игровые движки служат важным источником генерации больших объемов визуальных синтетических данных для обучения и оценки алгоритмов компьютерного зрения, предназначенных для применения в реальном мире. Хотя визуальное качество современных игровых движков значительно улучшилось благодаря таким технологиям, как трассировка лучей, сохраняется заметный разрыв в реалистичности (sim2real) между синтетическими и реальными изображениями, что ограничивает использование синтетических данных в практических приложениях. В данной статье мы исследуем возможность применения передовой диффузионной модели генерации и редактирования изображений (FLUX.2-4B Klein) для повышения фотореалистичности синтетических данных и сравниваем ее производительность с традиционной моделью трансляции "изображение-в-изображение" (REGEN). Кроме того, мы предлагаем гибридный подход, сочетающий сильные геометрические и материальные преобразования диффузионных методов с возможностями сопоставления распределений техник трансляции изображений. Эксперименты показывают, что REGEN превосходит FLUX.2-4B Klein, а комбинирование обеих моделей позволяет достичь лучшей визуальной реалистичности по сравнению с их раздельным использованием при сохранении семантической согласованности. Код доступен по адресу: https://github.com/stefanos50/Hybrid-Sim2Real

English

Video game engines have been an important source for generating large volumes of visual synthetic datasets for training and evaluating computer vision algorithms that are to be deployed in the real world. While the visual fidelity of modern game engines has been significantly improved with technologies such as ray-tracing, a notable sim2real appearance gap between the synthetic and the real-world images still remains, which limits the utilization of synthetic datasets in real-world applications. In this letter, we investigate the ability of a state-of-the-art image generation and editing diffusion model (FLUX.2-4B Klein) to enhance the photorealism of synthetic datasets and compare its performance against a traditional image-to-image translation model (REGEN). Furthermore, we propose a hybrid approach that combines the strong geometry and material transformations of diffusion-based methods with the distribution-matching capabilities of image-to-image translation techniques. Through experiments, it is demonstrated that REGEN outperforms FLUX.2-4B Klein and that by combining both FLUX.2-4B Klein and REGEN models, better visual realism can be achieved compared to using each model individually, while maintaining semantic consistency. The code is available at: https://github.com/stefanos50/Hybrid-Sim2Real

Гибридный подход к устранению разрыва в визуальном представлении между синтетическими данными игрового движка и реальными условиями

A Hybrid Approach for Closing the Sim2real Appearance Gap in Game Engine Synthetic Datasets

Аннотация

Support