DiT360: Generación de imágenes panorámicas de alta fidelidad mediante entrenamiento híbrido

Resumen

En este trabajo, proponemos DiT360, un marco basado en DiT que realiza entrenamiento híbrido con datos de perspectiva y panorámicos para la generación de imágenes panorámicas. Para los problemas de mantener la fidelidad geométrica y el fotorrealismo en la calidad de la generación, atribuimos la razón principal a la falta de datos panorámicos a gran escala y de alta calidad del mundo real, donde esta visión centrada en los datos difiere de métodos anteriores que se enfocan en el diseño del modelo. Básicamente, DiT360 tiene varios módulos clave para la transformación interdominio y la aumentación intradominio, aplicados tanto a nivel de imagen previo al VAE como a nivel de token posterior al VAE. A nivel de imagen, incorporamos conocimiento interdominio a través de guía de imágenes de perspectiva y refinamiento panorámico, lo que mejora la calidad perceptual mientras regulariza la diversidad y el fotorrealismo. A nivel de token, se aplica supervisión híbrida en múltiples módulos, que incluyen relleno circular para continuidad en los bordes, pérdida de yaw para robustez rotacional y pérdida de cubo para conciencia de distorsión. Experimentos extensos en tareas de texto-a-panorama, inpainting y outpainting demuestran que nuestro método logra una mejor consistencia en los bordes y fidelidad de imagen en once métricas cuantitativas. Nuestro código está disponible en https://github.com/Insta360-Research-Team/DiT360.

English

In this work, we propose DiT360, a DiT-based framework that performs hybrid training on perspective and panoramic data for panoramic image generation. For the issues of maintaining geometric fidelity and photorealism in generation quality, we attribute the main reason to the lack of large-scale, high-quality, real-world panoramic data, where such a data-centric view differs from prior methods that focus on model design. Basically, DiT360 has several key modules for inter-domain transformation and intra-domain augmentation, applied at both the pre-VAE image level and the post-VAE token level. At the image level, we incorporate cross-domain knowledge through perspective image guidance and panoramic refinement, which enhance perceptual quality while regularizing diversity and photorealism. At the token level, hybrid supervision is applied across multiple modules, which include circular padding for boundary continuity, yaw loss for rotational robustness, and cube loss for distortion awareness. Extensive experiments on text-to-panorama, inpainting, and outpainting tasks demonstrate that our method achieves better boundary consistency and image fidelity across eleven quantitative metrics. Our code is available at https://github.com/Insta360-Research-Team/DiT360.

DiT360: Generación de imágenes panorámicas de alta fidelidad mediante entrenamiento híbrido

DiT360: High-Fidelity Panoramic Image Generation via Hybrid Training

Resumen

Support