ChatPaper.aiChatPaper

DiT360: Geração de Imagens Panorâmicas de Alta Fidelidade por meio de Treinamento Híbrido

DiT360: High-Fidelity Panoramic Image Generation via Hybrid Training

October 13, 2025
Autores: Haoran Feng, Dizhe Zhang, Xiangtai Li, Bo Du, Lu Qi
cs.AI

Resumo

Neste trabalho, propomos o DiT360, uma estrutura baseada em DiT que realiza treinamento híbrido em dados de perspectiva e panorâmicos para a geração de imagens panorâmicas. Para as questões de manutenção da fidelidade geométrica e do fotorealismo na qualidade de geração, atribuímos a principal razão à falta de dados panorâmicos em grande escala e de alta qualidade do mundo real, onde essa visão centrada em dados difere de métodos anteriores que se concentram no design do modelo. Basicamente, o DiT360 possui vários módulos-chave para transformação interdomínio e aumento intra-domínio, aplicados tanto no nível de imagem pré-VAE quanto no nível de token pós-VAE. No nível de imagem, incorporamos conhecimento entre domínios por meio de orientação de imagem em perspectiva e refinamento panorâmico, que melhoram a qualidade perceptiva enquanto regularizam a diversidade e o fotorealismo. No nível de token, a supervisão híbrida é aplicada em vários módulos, que incluem preenchimento circular para continuidade de borda, perda de yaw para robustez rotacional e perda de cubo para consciência de distorção. Experimentos extensos em tarefas de texto-para-panorama, inpainting e outpainting demonstram que nosso método alcança melhor consistência de borda e fidelidade de imagem em onze métricas quantitativas. Nosso código está disponível em https://github.com/Insta360-Research-Team/DiT360.
English
In this work, we propose DiT360, a DiT-based framework that performs hybrid training on perspective and panoramic data for panoramic image generation. For the issues of maintaining geometric fidelity and photorealism in generation quality, we attribute the main reason to the lack of large-scale, high-quality, real-world panoramic data, where such a data-centric view differs from prior methods that focus on model design. Basically, DiT360 has several key modules for inter-domain transformation and intra-domain augmentation, applied at both the pre-VAE image level and the post-VAE token level. At the image level, we incorporate cross-domain knowledge through perspective image guidance and panoramic refinement, which enhance perceptual quality while regularizing diversity and photorealism. At the token level, hybrid supervision is applied across multiple modules, which include circular padding for boundary continuity, yaw loss for rotational robustness, and cube loss for distortion awareness. Extensive experiments on text-to-panorama, inpainting, and outpainting tasks demonstrate that our method achieves better boundary consistency and image fidelity across eleven quantitative metrics. Our code is available at https://github.com/Insta360-Research-Team/DiT360.
PDF294October 14, 2025