ChatPaper.aiChatPaper

DiT360: Генерация высококачественных панорамных изображений с использованием гибридного обучения

DiT360: High-Fidelity Panoramic Image Generation via Hybrid Training

October 13, 2025
Авторы: Haoran Feng, Dizhe Zhang, Xiangtai Li, Bo Du, Lu Qi
cs.AI

Аннотация

В данной работе мы представляем DiT360 — фреймворк на основе DiT, который выполняет гибридное обучение на перспективных и панорамных данных для генерации панорамных изображений. Проблемы сохранения геометрической точности и фотореализма в качестве генерации мы связываем с отсутствием крупномасштабных, высококачественных панорамных данных из реального мира, что отличает наш подход, ориентированный на данные, от предыдущих методов, сосредоточенных на проектировании моделей. В основе DiT360 лежат несколько ключевых модулей для междоменных преобразований и внутридоменного расширения, применяемых как на уровне изображений до VAE, так и на уровне токенов после VAE. На уровне изображений мы интегрируем междоменные знания через руководство перспективными изображениями и панорамное уточнение, что улучшает воспринимаемое качество, одновременно регулируя разнообразие и фотореализм. На уровне токенов применяется гибридное обучение в нескольких модулях, включая циклическое заполнение для непрерывности границ, потерю по углу рыскания для устойчивости к вращению и потерю по кубу для осознания искажений. Многочисленные эксперименты на задачах текста-в-панораму, восстановления и расширения изображений демонстрируют, что наш метод обеспечивает лучшую согласованность границ и точность изображений по одиннадцати количественным метрикам. Наш код доступен по адресу https://github.com/Insta360-Research-Team/DiT360.
English
In this work, we propose DiT360, a DiT-based framework that performs hybrid training on perspective and panoramic data for panoramic image generation. For the issues of maintaining geometric fidelity and photorealism in generation quality, we attribute the main reason to the lack of large-scale, high-quality, real-world panoramic data, where such a data-centric view differs from prior methods that focus on model design. Basically, DiT360 has several key modules for inter-domain transformation and intra-domain augmentation, applied at both the pre-VAE image level and the post-VAE token level. At the image level, we incorporate cross-domain knowledge through perspective image guidance and panoramic refinement, which enhance perceptual quality while regularizing diversity and photorealism. At the token level, hybrid supervision is applied across multiple modules, which include circular padding for boundary continuity, yaw loss for rotational robustness, and cube loss for distortion awareness. Extensive experiments on text-to-panorama, inpainting, and outpainting tasks demonstrate that our method achieves better boundary consistency and image fidelity across eleven quantitative metrics. Our code is available at https://github.com/Insta360-Research-Team/DiT360.
PDF294October 14, 2025