DiT360: Hochauflösende Panoramabildgenerierung durch hybrides Training
DiT360: High-Fidelity Panoramic Image Generation via Hybrid Training
October 13, 2025
papers.authors: Haoran Feng, Dizhe Zhang, Xiangtai Li, Bo Du, Lu Qi
cs.AI
papers.abstract
In dieser Arbeit stellen wir DiT360 vor, ein auf DiT basierendes Framework, das ein hybrides Training mit Perspektiv- und Panoramadaten für die Panoramabildgenerierung durchführt. Für die Probleme der Beibehaltung geometrischer Treue und des Photorealismus in der Generierungsqualität führen wir den Hauptgrund auf den Mangel an groß angelegten, hochwertigen, realen Panoramadaten zurück, wobei diese datenzentrierte Sichtweise sich von früheren Methoden unterscheidet, die sich auf das Modell-Design konzentrieren. Grundsätzlich verfügt DiT360 über mehrere Schlüsselmodule für die interdomänale Transformation und die intradomänale Augmentierung, die sowohl auf der prä-VAE-Bildebene als auch auf der post-VAE-Token-Ebene angewendet werden. Auf der Bildebene integrieren wir domänenübergreifendes Wissen durch Perspektivbildführung und Panoramaverfeinerung, was die wahrgenommene Qualität verbessert und gleichzeitig die Diversität und den Photorealismus reguliert. Auf der Token-Ebene wird eine hybride Überwachung über mehrere Module hinweg angewendet, die zirkuläres Padding für Grenzkontinuität, Yaw-Verlust für Rotationsrobustheit und Cube-Verlust für Verzerrungsbewusstsein umfassen. Umfangreiche Experimente zu Text-zu-Panorama-, Inpainting- und Outpainting-Aufgaben zeigen, dass unsere Methode eine bessere Grenzkonsistenz und Bildtreue über elf quantitative Metriken hinweg erreicht. Unser Code ist unter https://github.com/Insta360-Research-Team/DiT360 verfügbar.
English
In this work, we propose DiT360, a DiT-based framework that performs hybrid
training on perspective and panoramic data for panoramic image generation. For
the issues of maintaining geometric fidelity and photorealism in generation
quality, we attribute the main reason to the lack of large-scale, high-quality,
real-world panoramic data, where such a data-centric view differs from prior
methods that focus on model design. Basically, DiT360 has several key modules
for inter-domain transformation and intra-domain augmentation, applied at both
the pre-VAE image level and the post-VAE token level. At the image level, we
incorporate cross-domain knowledge through perspective image guidance and
panoramic refinement, which enhance perceptual quality while regularizing
diversity and photorealism. At the token level, hybrid supervision is applied
across multiple modules, which include circular padding for boundary
continuity, yaw loss for rotational robustness, and cube loss for distortion
awareness. Extensive experiments on text-to-panorama, inpainting, and
outpainting tasks demonstrate that our method achieves better boundary
consistency and image fidelity across eleven quantitative metrics. Our code is
available at https://github.com/Insta360-Research-Team/DiT360.