統合マルチモーダル理解と生成における空間知能の覚醒
Awaking Spatial Intelligence in Unified Multimodal Understanding and Generation
May 5, 2026
著者: Lin Song, Wenbo Li, Guoqing Ma, Wei Tang, Bo Wang, Yuan Zhang, Yijun Yang, Yicheng Xiao, Jianhui Liu, Yanbing Zhang, Guohui Zhang, Wenhu Zhang, Hang Xu, Nan Jiang, Xin Han, Haoze Sun, Maoquan Zhang, Haoyang Huang, Nan Duan
cs.AI
要旨
JoyAI-Imageを提案する。これは、視覚的理解、テキストからの画像生成、および指示に基づく画像編集のための統合されたマルチモーダル基盤モデルである。JoyAI-Imageは、空間的に強化されたマルチモーダル大規模言語モデル(MLLM)とマルチモーダル拡散トランスフォーマー(MMDiT)を結合し、知覚と生成が共有のマルチモーダルインターフェースを通じて相互作用することを可能にする。このアーキテクチャを中心に、統合された指示チューニング、長文レンダリングの監督、空間的に接地されたデータ、および一般的および空間的編集信号を組み合わせたスケーラブルなトレーニングレシピを構築した。この設計により、モデルは広範なマルチモーダル能力を獲得すると同時に、幾何学的認識を伴う推論と制御可能な視覚的合成が強化される。理解、生成、長文レンダリング、編集の各ベンチマークにおける実験結果は、JoyAI-Imageが最先端または非常に競争力のある性能を達成することを示している。さらに重要なことは、強化された理解、制御可能な空間的編集、および新規視点支援推論の間の双方向ループにより、モデルが一般的な視覚能力を超えて、より強力な空間的知能に向かって発展できる点である。これらの結果は、視覚-言語-行動システムや世界モデルなどの下流アプリケーションにおける統合視覚モデルの有望な発展経路を示唆している。
English
We present JoyAI-Image, a unified multimodal foundation model for visual understanding, text-to-image generation, and instruction-guided image editing. JoyAI-Image couples a spatially enhanced Multimodal Large Language Model (MLLM) with a Multimodal Diffusion Transformer (MMDiT), allowing perception and generation to interact through a shared multimodal interface. Around this architecture, we build a scalable training recipe that combines unified instruction tuning, long-text rendering supervision, spatially grounded data, and both general and spatial editing signals. This design gives the model broad multimodal capability while strengthening geometry-aware reasoning and controllable visual synthesis. Experiments across understanding, generation, long-text rendering, and editing benchmarks show that JoyAI-Image achieves state-of-the-art or highly competitive performance. More importantly, the bidirectional loop between enhanced understanding, controllable spatial editing, and novel-view-assisted reasoning enables the model to move beyond general visual competence toward stronger spatial intelligence. These results suggest a promising path for unified visual models in downstream applications such as vision-language-action systems and world models.