ChatPaper.aiChatPaper

DiT360: Generazione di Immagini Panoramiche ad Alta Fedeltà tramite Addestramento Ibrido

DiT360: High-Fidelity Panoramic Image Generation via Hybrid Training

October 13, 2025
Autori: Haoran Feng, Dizhe Zhang, Xiangtai Li, Bo Du, Lu Qi
cs.AI

Abstract

In questo lavoro, proponiamo DiT360, un framework basato su DiT che esegue un addestramento ibrido su dati prospettici e panoramici per la generazione di immagini panoramiche. Per quanto riguarda i problemi di mantenimento della fedeltà geometrica e del fotorealismo nella qualità della generazione, attribuiamo la causa principale alla mancanza di dati panoramici su larga scala e di alta qualità provenienti dal mondo reale, una visione incentrata sui dati che differisce dai metodi precedenti focalizzati sulla progettazione del modello. Fondamentalmente, DiT360 comprende diversi moduli chiave per la trasformazione inter-dominio e l'aumentazione intra-dominio, applicati sia a livello di immagine pre-VAE che a livello di token post-VAE. A livello di immagine, incorporiamo conoscenze cross-dominio attraverso la guida di immagini prospettiche e il perfezionamento panoramico, che migliorano la qualità percettiva regolando al contempo la diversità e il fotorealismo. A livello di token, viene applicata una supervisione ibrida su più moduli, che includono il padding circolare per la continuità dei bordi, la perdita di yaw per la robustezza rotazionale e la perdita cubica per la consapevolezza della distorsione. Esperimenti estesi sui compiti di testo-a-panorama, inpainting e outpainting dimostrano che il nostro metodo raggiunge una migliore coerenza dei bordi e fedeltà dell'immagine attraverso undici metriche quantitative. Il nostro codice è disponibile all'indirizzo https://github.com/Insta360-Research-Team/DiT360.
English
In this work, we propose DiT360, a DiT-based framework that performs hybrid training on perspective and panoramic data for panoramic image generation. For the issues of maintaining geometric fidelity and photorealism in generation quality, we attribute the main reason to the lack of large-scale, high-quality, real-world panoramic data, where such a data-centric view differs from prior methods that focus on model design. Basically, DiT360 has several key modules for inter-domain transformation and intra-domain augmentation, applied at both the pre-VAE image level and the post-VAE token level. At the image level, we incorporate cross-domain knowledge through perspective image guidance and panoramic refinement, which enhance perceptual quality while regularizing diversity and photorealism. At the token level, hybrid supervision is applied across multiple modules, which include circular padding for boundary continuity, yaw loss for rotational robustness, and cube loss for distortion awareness. Extensive experiments on text-to-panorama, inpainting, and outpainting tasks demonstrate that our method achieves better boundary consistency and image fidelity across eleven quantitative metrics. Our code is available at https://github.com/Insta360-Research-Team/DiT360.
PDF294October 14, 2025