DiT360 : Génération d'images panoramiques haute fidélité via un apprentissage hybride

papers.abstract

Dans ce travail, nous proposons DiT360, un framework basé sur DiT qui effectue un entraînement hybride sur des données en perspective et panoramiques pour la génération d'images panoramiques. Concernant les problèmes de maintien de la fidélité géométrique et du photoréalisme dans la qualité de génération, nous attribuons la raison principale au manque de données panoramiques à grande échelle et de haute qualité provenant du monde réel. Cette perspective centrée sur les données diffère des méthodes antérieures qui se concentrent sur la conception des modèles. Fondamentalement, DiT360 comprend plusieurs modules clés pour la transformation inter-domaines et l'augmentation intra-domaine, appliqués à la fois au niveau de l'image pré-VAE et au niveau des tokens post-VAE. Au niveau de l'image, nous intégrons des connaissances inter-domaines grâce à un guidage par images en perspective et un raffinement panoramique, ce qui améliore la qualité perceptuelle tout en régularisant la diversité et le photoréalisme. Au niveau des tokens, une supervision hybride est appliquée à travers plusieurs modules, incluant un remplissage circulaire pour la continuité des bords, une perte de lacet pour la robustesse rotationnelle, et une perte cubique pour la prise en compte des distorsions. Des expériences approfondies sur les tâches de texte-à-panorama, d'inpainting et d'outpainting démontrent que notre méthode atteint une meilleure cohérence des bords et une fidélité d'image à travers onze métriques quantitatives. Notre code est disponible à l'adresse https://github.com/Insta360-Research-Team/DiT360.

English

In this work, we propose DiT360, a DiT-based framework that performs hybrid training on perspective and panoramic data for panoramic image generation. For the issues of maintaining geometric fidelity and photorealism in generation quality, we attribute the main reason to the lack of large-scale, high-quality, real-world panoramic data, where such a data-centric view differs from prior methods that focus on model design. Basically, DiT360 has several key modules for inter-domain transformation and intra-domain augmentation, applied at both the pre-VAE image level and the post-VAE token level. At the image level, we incorporate cross-domain knowledge through perspective image guidance and panoramic refinement, which enhance perceptual quality while regularizing diversity and photorealism. At the token level, hybrid supervision is applied across multiple modules, which include circular padding for boundary continuity, yaw loss for rotational robustness, and cube loss for distortion awareness. Extensive experiments on text-to-panorama, inpainting, and outpainting tasks demonstrate that our method achieves better boundary consistency and image fidelity across eleven quantitative metrics. Our code is available at https://github.com/Insta360-Research-Team/DiT360.

DiT360 : Génération d'images panoramiques haute fidélité via un apprentissage hybride

DiT360: High-Fidelity Panoramic Image Generation via Hybrid Training

papers.abstract

Support