Omni123: テキストから2Dおよび3D生成の統合による限定的な3Dデータでの3Dネイティブ基盤モデルの探求
Omni123: Exploring 3D Native Foundation Models with Limited 3D Data by Unifying Text to 2D and 3D Generation
April 2, 2026
著者: Chongjie Ye, Cheng Cao, Chuanyu Pan, Yiming Hao, Yihao Zhi, Yuanming Hu, Xiaoguang Han
cs.AI
要旨
近年、マルチモーダル大規模言語モデルは、統合的なテキスト・画像の理解と生成において高い性能を達成している。しかし、データ不足のため、この本来の能力を3Dへ拡張することは依然として課題である。豊富な2D画像に比べ、高品質な3Dアセットは乏しく、3D合成は制約が不十分になりがちだ。既存手法は、2Dで編集し最適化を介して結果を3Dに変換する間接的なパイプラインに依存することが多く、幾何学的一貫性を犠牲にする。我々は、テキストから2D、テキストから3Dへの生成を単一の自己回帰フレームワーク内に統合する3Dネイティブ基盤モデル「Omni123」を提案する。重要な洞察は、画像と3D間のクロスモーダル一貫性が暗黙的な構造制約として機能し得る点である。テキスト、画像、3Dを共有シーケンス空間内の離散トークンとして表現することで、モデルは豊富な2Dデータを幾何学的事前知識として活用し、3D表現を改善する。我々は、完全に整合したテキスト-画像-3Dの三つ組を必要とせず、異種ペアデータセット上で多様なクロスモーダルタスクを調整する、インターリーブされたX-to-X訓練パラダイムを導入する。自己回帰シーケンス内で意味-視覚-幾何学のサイクル(例:テキスト→画像→3D→画像)を辿ることにより、モデルは意味的整合性、外観の忠実度、多視点幾何学的一貫性を共同で強化する。実験により、Omni123がテキスト誘導3D生成と編集を大幅に改善し、マルチモーダル3D世界モデルへのスケーラブルな道筋を示すことを実証する。
English
Recent multimodal large language models have achieved strong performance in unified text and image understanding and generation, yet extending such native capability to 3D remains challenging due to limited data. Compared to abundant 2D imagery, high-quality 3D assets are scarce, making 3D synthesis under-constrained. Existing methods often rely on indirect pipelines that edit in 2D and lift results into 3D via optimization, sacrificing geometric consistency. We present Omni123, a 3D-native foundation model that unifies text-to-2D and text-to-3D generation within a single autoregressive framework. Our key insight is that cross-modal consistency between images and 3D can serve as an implicit structural constraint. By representing text, images, and 3D as discrete tokens in a shared sequence space, the model leverages abundant 2D data as a geometric prior to improve 3D representations. We introduce an interleaved X-to-X training paradigm that coordinates diverse cross-modal tasks over heterogeneous paired datasets without requiring fully aligned text-image-3D triplets. By traversing semantic-visual-geometric cycles (e.g., text to image to 3D to image) within autoregressive sequences, the model jointly enforces semantic alignment, appearance fidelity, and multi-view geometric consistency. Experiments show that Omni123 significantly improves text-guided 3D generation and editing, demonstrating a scalable path toward multimodal 3D world models.