ChatPaper.aiChatPaper

Éveiller l'intelligence spatiale dans la compréhension et la génération multimodales unifiées

Awaking Spatial Intelligence in Unified Multimodal Understanding and Generation

May 5, 2026
Auteurs: Lin Song, Wenbo Li, Guoqing Ma, Wei Tang, Bo Wang, Yuan Zhang, Yijun Yang, Yicheng Xiao, Jianhui Liu, Yanbing Zhang, Guohui Zhang, Wenhu Zhang, Hang Xu, Nan Jiang, Xin Han, Haoze Sun, Maoquan Zhang, Haoyang Huang, Nan Duan
cs.AI

Résumé

Nous présentons JoyAI-Image, un modèle de fondation multimodal unifié pour la compréhension visuelle, la génération d'images à partir de texte et l'édition d'images guidée par instructions. JoyAI-Image associe un modèle de langage multimodal (MLLM) à renforcement spatial avec un transformeur de diffusion multimodal (MMDiT), permettant à la perception et à la génération d'interagir via une interface multimodale partagée. Autour de cette architecture, nous construisons une méthode d'entraînement scalable qui combine un réglage par instructions unifié, une supervision de rendu de texte long, des données spatialement ancrées et des signaux d'édition généraux et spatiaux. Cette conception confère au modèle une large capacité multimodale tout en renforçant le raisonnement géométriquement conscient et la synthèse visuelle contrôlable. Les expériences sur des benchmarks de compréhension, de génération, de rendu de texte long et d'édition montrent que JoyAI-Image atteint des performances à l'état de l'art ou très compétitives. Plus important encore, la boucle bidirectionnelle entre une compréhension améliorée, une édition spatiale contrôlable et un raisonnement assisté par des vues novatrices permet au modèle de dépasser les compétences visuelles générales pour tendre vers une intelligence spatiale plus forte. Ces résultats suggèrent une voie prometteuse pour les modèles visuels unifiés dans des applications en aval telles que les systèmes vision-langage-action et les modèles du monde.
English
We present JoyAI-Image, a unified multimodal foundation model for visual understanding, text-to-image generation, and instruction-guided image editing. JoyAI-Image couples a spatially enhanced Multimodal Large Language Model (MLLM) with a Multimodal Diffusion Transformer (MMDiT), allowing perception and generation to interact through a shared multimodal interface. Around this architecture, we build a scalable training recipe that combines unified instruction tuning, long-text rendering supervision, spatially grounded data, and both general and spatial editing signals. This design gives the model broad multimodal capability while strengthening geometry-aware reasoning and controllable visual synthesis. Experiments across understanding, generation, long-text rendering, and editing benchmarks show that JoyAI-Image achieves state-of-the-art or highly competitive performance. More importantly, the bidirectional loop between enhanced understanding, controllable spatial editing, and novel-view-assisted reasoning enables the model to move beyond general visual competence toward stronger spatial intelligence. These results suggest a promising path for unified visual models in downstream applications such as vision-language-action systems and world models.
PDF80May 8, 2026