Het Ontwaken van Ruimtelijke Intelligentie in Verenigde Multimodale Begrip en Generatie
Awaking Spatial Intelligence in Unified Multimodal Understanding and Generation
May 5, 2026
Auteurs: Lin Song, Wenbo Li, Guoqing Ma, Wei Tang, Bo Wang, Yuan Zhang, Yijun Yang, Yicheng Xiao, Jianhui Liu, Yanbing Zhang, Guohui Zhang, Wenhu Zhang, Hang Xu, Nan Jiang, Xin Han, Haoze Sun, Maoquan Zhang, Haoyang Huang, Nan Duan
cs.AI
Samenvatting
Wij presenteren JoyAI-Image, een verenigd multimodaal fundamentmodel voor visueel begrip, tekst-naar-beeld-generatie en instructiegestuurd beeldbewerken. JoyAI-Image koppelt een ruimtelijk versterkt Multimodaal Taalmodel (MLLM) aan een Multimodale Diffusion Transformer (MMDiT), waardoor waarneming en generatie kunnen interacteren via een gedeelde multimodale interface. Rond deze architectuur bouwen we een schaalbaar trainingsrecept dat verenigde instructie-afstemming, toezicht op lange-tekstweergave, ruimtelijk verankerde gegevens, en zowel algemene als ruimtelijke bewerkingssignalen combineert. Dit ontwerp geeft het model brede multimodale capaciteiten terwijl het ruimtelijk bewust redeneren en controleerbare visuele synthese versterkt. Experimenten op het gebied van begrip, generatie, lange-tekstweergave en bewerkingsbenchmarks tonen aan dat JoyAI-Image state-of-the-art of zeer concurrerende prestaties bereikt. Belangrijker nog, de bidirectionele lus tussen versterkt begrip, controleerbare ruimtelijke bewerking en redeneren met nieuwe perspectief-ondersteuning stelt het model in staat verder te gaan dan algemene visuele competentie naar sterkere ruimtelijke intelligentie. Deze resultaten wijzen op een veelbelovend pad voor verenigde visuele modellen in downstream-toepassingen zoals visie-taal-actie-systemen en wereldmodellen.
English
We present JoyAI-Image, a unified multimodal foundation model for visual understanding, text-to-image generation, and instruction-guided image editing. JoyAI-Image couples a spatially enhanced Multimodal Large Language Model (MLLM) with a Multimodal Diffusion Transformer (MMDiT), allowing perception and generation to interact through a shared multimodal interface. Around this architecture, we build a scalable training recipe that combines unified instruction tuning, long-text rendering supervision, spatially grounded data, and both general and spatial editing signals. This design gives the model broad multimodal capability while strengthening geometry-aware reasoning and controllable visual synthesis. Experiments across understanding, generation, long-text rendering, and editing benchmarks show that JoyAI-Image achieves state-of-the-art or highly competitive performance. More importantly, the bidirectional loop between enhanced understanding, controllable spatial editing, and novel-view-assisted reasoning enables the model to move beyond general visual competence toward stronger spatial intelligence. These results suggest a promising path for unified visual models in downstream applications such as vision-language-action systems and world models.