DiT360: 하이브리드 학습을 통한 고품질 파노라마 이미지 생성
DiT360: High-Fidelity Panoramic Image Generation via Hybrid Training
October 13, 2025
저자: Haoran Feng, Dizhe Zhang, Xiangtai Li, Bo Du, Lu Qi
cs.AI
초록
본 연구에서는 파노라믹 이미지 생성을 위해 원근 및 파노라믹 데이터에 대한 하이브리드 학습을 수행하는 DiT 기반 프레임워크인 DiT360을 제안합니다. 생성 품질에서 기하학적 충실도와 사진 같은 현실감을 유지하는 문제에 대해, 우리는 대규모 고품질 실제 파노라믹 데이터의 부재를 주요 원인으로 보고 있으며, 이러한 데이터 중심적 관점은 모델 설계에 초점을 맞춘 기존 방법과 차별화됩니다. 기본적으로 DiT360은 도메인 간 변환과 도메인 내 증강을 위한 여러 핵심 모듈을 포함하며, 이는 VAE 전 이미지 수준과 VAE 후 토큰 수준 모두에 적용됩니다. 이미지 수준에서는 원근 이미지 가이던스와 파노라믹 정제를 통해 교차 도메인 지식을 통합하여 지각적 품질을 향상시키면서 다양성과 사진 같은 현실감을 규제합니다. 토큰 수준에서는 경계 연속성을 위한 원형 패딩, 회전 강건성을 위한 요우 손실, 왜곡 인식을 위한 큐브 손실을 포함한 여러 모듈에 걸쳐 하이브리드 감독이 적용됩니다. 텍스트-투-파노라마, 인페인팅, 아웃페인팅 작업에 대한 광범위한 실험을 통해 우리의 방법이 11개의 정량적 지표에서 더 나은 경계 일관성과 이미지 충실도를 달성함을 입증했습니다. 우리의 코드는 https://github.com/Insta360-Research-Team/DiT360에서 확인할 수 있습니다.
English
In this work, we propose DiT360, a DiT-based framework that performs hybrid
training on perspective and panoramic data for panoramic image generation. For
the issues of maintaining geometric fidelity and photorealism in generation
quality, we attribute the main reason to the lack of large-scale, high-quality,
real-world panoramic data, where such a data-centric view differs from prior
methods that focus on model design. Basically, DiT360 has several key modules
for inter-domain transformation and intra-domain augmentation, applied at both
the pre-VAE image level and the post-VAE token level. At the image level, we
incorporate cross-domain knowledge through perspective image guidance and
panoramic refinement, which enhance perceptual quality while regularizing
diversity and photorealism. At the token level, hybrid supervision is applied
across multiple modules, which include circular padding for boundary
continuity, yaw loss for rotational robustness, and cube loss for distortion
awareness. Extensive experiments on text-to-panorama, inpainting, and
outpainting tasks demonstrate that our method achieves better boundary
consistency and image fidelity across eleven quantitative metrics. Our code is
available at https://github.com/Insta360-Research-Team/DiT360.