DiT360: Hochauflösende Panoramabildgenerierung durch hybrides Training

papers.abstract

In dieser Arbeit stellen wir DiT360 vor, ein auf DiT basierendes Framework, das ein hybrides Training mit Perspektiv- und Panoramadaten für die Panoramabildgenerierung durchführt. Für die Probleme der Beibehaltung geometrischer Treue und des Photorealismus in der Generierungsqualität führen wir den Hauptgrund auf den Mangel an groß angelegten, hochwertigen, realen Panoramadaten zurück, wobei diese datenzentrierte Sichtweise sich von früheren Methoden unterscheidet, die sich auf das Modell-Design konzentrieren. Grundsätzlich verfügt DiT360 über mehrere Schlüsselmodule für die interdomänale Transformation und die intradomänale Augmentierung, die sowohl auf der prä-VAE-Bildebene als auch auf der post-VAE-Token-Ebene angewendet werden. Auf der Bildebene integrieren wir domänenübergreifendes Wissen durch Perspektivbildführung und Panoramaverfeinerung, was die wahrgenommene Qualität verbessert und gleichzeitig die Diversität und den Photorealismus reguliert. Auf der Token-Ebene wird eine hybride Überwachung über mehrere Module hinweg angewendet, die zirkuläres Padding für Grenzkontinuität, Yaw-Verlust für Rotationsrobustheit und Cube-Verlust für Verzerrungsbewusstsein umfassen. Umfangreiche Experimente zu Text-zu-Panorama-, Inpainting- und Outpainting-Aufgaben zeigen, dass unsere Methode eine bessere Grenzkonsistenz und Bildtreue über elf quantitative Metriken hinweg erreicht. Unser Code ist unter https://github.com/Insta360-Research-Team/DiT360 verfügbar.

English

In this work, we propose DiT360, a DiT-based framework that performs hybrid training on perspective and panoramic data for panoramic image generation. For the issues of maintaining geometric fidelity and photorealism in generation quality, we attribute the main reason to the lack of large-scale, high-quality, real-world panoramic data, where such a data-centric view differs from prior methods that focus on model design. Basically, DiT360 has several key modules for inter-domain transformation and intra-domain augmentation, applied at both the pre-VAE image level and the post-VAE token level. At the image level, we incorporate cross-domain knowledge through perspective image guidance and panoramic refinement, which enhance perceptual quality while regularizing diversity and photorealism. At the token level, hybrid supervision is applied across multiple modules, which include circular padding for boundary continuity, yaw loss for rotational robustness, and cube loss for distortion awareness. Extensive experiments on text-to-panorama, inpainting, and outpainting tasks demonstrate that our method achieves better boundary consistency and image fidelity across eleven quantitative metrics. Our code is available at https://github.com/Insta360-Research-Team/DiT360.

DiT360: Hochauflösende Panoramabildgenerierung durch hybrides Training

DiT360: High-Fidelity Panoramic Image Generation via Hybrid Training

papers.abstract

Support