DiT360: Generación de imágenes panorámicas de alta fidelidad mediante entrenamiento híbrido
DiT360: High-Fidelity Panoramic Image Generation via Hybrid Training
October 13, 2025
Autores: Haoran Feng, Dizhe Zhang, Xiangtai Li, Bo Du, Lu Qi
cs.AI
Resumen
En este trabajo, proponemos DiT360, un marco basado en DiT que realiza entrenamiento híbrido con datos de perspectiva y panorámicos para la generación de imágenes panorámicas. Para los problemas de mantener la fidelidad geométrica y el fotorrealismo en la calidad de la generación, atribuimos la razón principal a la falta de datos panorámicos a gran escala y de alta calidad del mundo real, donde esta visión centrada en los datos difiere de métodos anteriores que se enfocan en el diseño del modelo. Básicamente, DiT360 tiene varios módulos clave para la transformación interdominio y la aumentación intradominio, aplicados tanto a nivel de imagen previo al VAE como a nivel de token posterior al VAE. A nivel de imagen, incorporamos conocimiento interdominio a través de guía de imágenes de perspectiva y refinamiento panorámico, lo que mejora la calidad perceptual mientras regulariza la diversidad y el fotorrealismo. A nivel de token, se aplica supervisión híbrida en múltiples módulos, que incluyen relleno circular para continuidad en los bordes, pérdida de yaw para robustez rotacional y pérdida de cubo para conciencia de distorsión. Experimentos extensos en tareas de texto-a-panorama, inpainting y outpainting demuestran que nuestro método logra una mejor consistencia en los bordes y fidelidad de imagen en once métricas cuantitativas. Nuestro código está disponible en https://github.com/Insta360-Research-Team/DiT360.
English
In this work, we propose DiT360, a DiT-based framework that performs hybrid
training on perspective and panoramic data for panoramic image generation. For
the issues of maintaining geometric fidelity and photorealism in generation
quality, we attribute the main reason to the lack of large-scale, high-quality,
real-world panoramic data, where such a data-centric view differs from prior
methods that focus on model design. Basically, DiT360 has several key modules
for inter-domain transformation and intra-domain augmentation, applied at both
the pre-VAE image level and the post-VAE token level. At the image level, we
incorporate cross-domain knowledge through perspective image guidance and
panoramic refinement, which enhance perceptual quality while regularizing
diversity and photorealism. At the token level, hybrid supervision is applied
across multiple modules, which include circular padding for boundary
continuity, yaw loss for rotational robustness, and cube loss for distortion
awareness. Extensive experiments on text-to-panorama, inpainting, and
outpainting tasks demonstrate that our method achieves better boundary
consistency and image fidelity across eleven quantitative metrics. Our code is
available at https://github.com/Insta360-Research-Team/DiT360.