DiT360: Hoogwaardige panoramische beeldgeneratie via hybride training
DiT360: High-Fidelity Panoramic Image Generation via Hybrid Training
October 13, 2025
Auteurs: Haoran Feng, Dizhe Zhang, Xiangtai Li, Bo Du, Lu Qi
cs.AI
Samenvatting
In dit werk stellen we DiT360 voor, een op DiT gebaseerd framework dat hybride training uitvoert op perspectief- en panoramische data voor het genereren van panoramische beelden. Voor de problemen van het behouden van geometrische nauwkeurigheid en fotorealisme in de generatiekwaliteit, schrijven we de belangrijkste reden toe aan het gebrek aan grootschalige, hoogwaardige, real-world panoramische data, waarbij deze data-gerichte benadering verschilt van eerdere methoden die zich richten op modelontwerp. In essentie heeft DiT360 verschillende sleutelmodules voor inter-domein transformatie en intra-domein augmentatie, toegepast op zowel het pre-VAE beeldniveau als het post-VAE tokenniveau. Op beeldniveau integreren we cross-domein kennis door middel van perspectiefbeeldbegeleiding en panoramische verfijning, wat de perceptuele kwaliteit verbetert terwijl diversiteit en fotorealisme worden gereguleerd. Op tokenniveau wordt hybride supervisie toegepast over meerdere modules, waaronder circulaire padding voor grenscontinuïteit, yaw-verlies voor rotatierobustheid en kubusverlies voor bewustzijn van vervorming. Uitgebreide experimenten op tekst-naar-panorama, inpainting en outpainting taken tonen aan dat onze methode betere grensconsistentie en beeldnauwkeurigheid bereikt over elf kwantitatieve metrieken. Onze code is beschikbaar op https://github.com/Insta360-Research-Team/DiT360.
English
In this work, we propose DiT360, a DiT-based framework that performs hybrid
training on perspective and panoramic data for panoramic image generation. For
the issues of maintaining geometric fidelity and photorealism in generation
quality, we attribute the main reason to the lack of large-scale, high-quality,
real-world panoramic data, where such a data-centric view differs from prior
methods that focus on model design. Basically, DiT360 has several key modules
for inter-domain transformation and intra-domain augmentation, applied at both
the pre-VAE image level and the post-VAE token level. At the image level, we
incorporate cross-domain knowledge through perspective image guidance and
panoramic refinement, which enhance perceptual quality while regularizing
diversity and photorealism. At the token level, hybrid supervision is applied
across multiple modules, which include circular padding for boundary
continuity, yaw loss for rotational robustness, and cube loss for distortion
awareness. Extensive experiments on text-to-panorama, inpainting, and
outpainting tasks demonstrate that our method achieves better boundary
consistency and image fidelity across eleven quantitative metrics. Our code is
available at https://github.com/Insta360-Research-Team/DiT360.