DiT360 : Génération d'images panoramiques haute fidélité via un apprentissage hybride
DiT360: High-Fidelity Panoramic Image Generation via Hybrid Training
October 13, 2025
papers.authors: Haoran Feng, Dizhe Zhang, Xiangtai Li, Bo Du, Lu Qi
cs.AI
papers.abstract
Dans ce travail, nous proposons DiT360, un framework basé sur DiT qui effectue un entraînement hybride sur des données en perspective et panoramiques pour la génération d'images panoramiques. Concernant les problèmes de maintien de la fidélité géométrique et du photoréalisme dans la qualité de génération, nous attribuons la raison principale au manque de données panoramiques à grande échelle et de haute qualité provenant du monde réel. Cette perspective centrée sur les données diffère des méthodes antérieures qui se concentrent sur la conception des modèles. Fondamentalement, DiT360 comprend plusieurs modules clés pour la transformation inter-domaines et l'augmentation intra-domaine, appliqués à la fois au niveau de l'image pré-VAE et au niveau des tokens post-VAE. Au niveau de l'image, nous intégrons des connaissances inter-domaines grâce à un guidage par images en perspective et un raffinement panoramique, ce qui améliore la qualité perceptuelle tout en régularisant la diversité et le photoréalisme. Au niveau des tokens, une supervision hybride est appliquée à travers plusieurs modules, incluant un remplissage circulaire pour la continuité des bords, une perte de lacet pour la robustesse rotationnelle, et une perte cubique pour la prise en compte des distorsions. Des expériences approfondies sur les tâches de texte-à-panorama, d'inpainting et d'outpainting démontrent que notre méthode atteint une meilleure cohérence des bords et une fidélité d'image à travers onze métriques quantitatives. Notre code est disponible à l'adresse https://github.com/Insta360-Research-Team/DiT360.
English
In this work, we propose DiT360, a DiT-based framework that performs hybrid
training on perspective and panoramic data for panoramic image generation. For
the issues of maintaining geometric fidelity and photorealism in generation
quality, we attribute the main reason to the lack of large-scale, high-quality,
real-world panoramic data, where such a data-centric view differs from prior
methods that focus on model design. Basically, DiT360 has several key modules
for inter-domain transformation and intra-domain augmentation, applied at both
the pre-VAE image level and the post-VAE token level. At the image level, we
incorporate cross-domain knowledge through perspective image guidance and
panoramic refinement, which enhance perceptual quality while regularizing
diversity and photorealism. At the token level, hybrid supervision is applied
across multiple modules, which include circular padding for boundary
continuity, yaw loss for rotational robustness, and cube loss for distortion
awareness. Extensive experiments on text-to-panorama, inpainting, and
outpainting tasks demonstrate that our method achieves better boundary
consistency and image fidelity across eleven quantitative metrics. Our code is
available at https://github.com/Insta360-Research-Team/DiT360.