ChatPaper.aiChatPaper

DiT360:ハイブリッドトレーニングによる高精細パノラマ画像生成

DiT360: High-Fidelity Panoramic Image Generation via Hybrid Training

October 13, 2025
著者: Haoran Feng, Dizhe Zhang, Xiangtai Li, Bo Du, Lu Qi
cs.AI

要旨

本研究では、パノラマ画像生成のための視点画像とパノラマデータのハイブリッド学習を実行するDiTベースのフレームワークであるDiT360を提案します。生成品質における幾何学的忠実性とフォトリアリズムの維持に関する課題について、その主な原因を大規模で高品質な実世界のパノラマデータの不足に帰着させます。このデータ中心の視点は、モデル設計に焦点を当てた従来の手法とは異なります。基本的に、DiT360には、ドメイン間変換とドメイン内拡張のためのいくつかの主要モジュールがあり、これらはVAE前の画像レベルとVAE後のトークンレベルの両方に適用されます。画像レベルでは、視点画像ガイダンスとパノラマリファインメントを通じてクロスドメイン知識を組み込み、知覚品質を向上させると同時に多様性とフォトリアリズムを正則化します。トークンレベルでは、複数のモジュールにわたってハイブリッドな監視が適用されます。これには、境界連続性のための円形パディング、回転ロバスト性のためのヨーロッパ損失、歪み認識のためのキューブ損失が含まれます。テキストからパノラマ、インペインティング、アウトペインティングタスクに関する広範な実験により、本手法が11の定量的指標にわたってより優れた境界一貫性と画像忠実性を達成することが実証されています。私たちのコードはhttps://github.com/Insta360-Research-Team/DiT360で公開されています。
English
In this work, we propose DiT360, a DiT-based framework that performs hybrid training on perspective and panoramic data for panoramic image generation. For the issues of maintaining geometric fidelity and photorealism in generation quality, we attribute the main reason to the lack of large-scale, high-quality, real-world panoramic data, where such a data-centric view differs from prior methods that focus on model design. Basically, DiT360 has several key modules for inter-domain transformation and intra-domain augmentation, applied at both the pre-VAE image level and the post-VAE token level. At the image level, we incorporate cross-domain knowledge through perspective image guidance and panoramic refinement, which enhance perceptual quality while regularizing diversity and photorealism. At the token level, hybrid supervision is applied across multiple modules, which include circular padding for boundary continuity, yaw loss for rotational robustness, and cube loss for distortion awareness. Extensive experiments on text-to-panorama, inpainting, and outpainting tasks demonstrate that our method achieves better boundary consistency and image fidelity across eleven quantitative metrics. Our code is available at https://github.com/Insta360-Research-Team/DiT360.
PDF294October 14, 2025