Erweckung räumlicher Intelligenz im vereinheitlichten multimodalen Verständnis und Generieren
Awaking Spatial Intelligence in Unified Multimodal Understanding and Generation
May 5, 2026
Autoren: Lin Song, Wenbo Li, Guoqing Ma, Wei Tang, Bo Wang, Yuan Zhang, Yijun Yang, Yicheng Xiao, Jianhui Liu, Yanbing Zhang, Guohui Zhang, Wenhu Zhang, Hang Xu, Nan Jiang, Xin Han, Haoze Sun, Maoquan Zhang, Haoyang Huang, Nan Duan
cs.AI
Zusammenfassung
Wir stellen JoyAI-Image vor, ein einheitliches multimodales Fundamentmodell für visuelles Verständnis, Text-zu-Bild-Generierung und befehlsgesteuerte Bildbearbeitung. JoyAI-Image kombiniert ein räumlich erweitertes Multimodales Großsprachmodell (MLLM) mit einem Multimodalen Diffusions-Transformer (MMDiT), wodurch Wahrnehmung und Generierung über eine gemeinsame multimodale Schnittstelle interagieren können. Um diese Architektur herum entwickeln wir ein skalierbares Trainingsrezept, das vereinheitlichtes Instruction Tuning, Aufsicht für Langtext-Rendering, räumlich verankerte Daten sowie allgemeine und räumliche Bearbeitungssignale kombiniert. Dieses Design verleiht dem Modell breite multimodale Fähigkeiten und stärkt gleichzeitig geometriebewusstes Schließen und kontrollierbare visuelle Synthese. Experimente zu Verständnis, Generierung, Langtext-Rendering und Bearbeitungs-Benchmarks zeigen, dass JoyAI-Image state-of-the-art oder höchst wettbewerbsfähige Leistung erzielt. Noch wichtiger ist, dass die bidirektionale Schleife zwischen verbessertem Verständnis, kontrollierbarer räumlicher Bearbeitung und neuansichtsgestützter Schlussfolgerung es dem Modell ermöglicht, über allgemeine visuelle Kompetenz hinaus hin zu stärkerer räumlicher Intelligenz zu gelangen. Diese Ergebnisse weisen auf einen vielversprechenden Weg für vereinheitlichte visuelle Modelle in nachgelagerten Anwendungen wie Sprach-Vision-Aktions-Systemen und Weltmodellen hin.
English
We present JoyAI-Image, a unified multimodal foundation model for visual understanding, text-to-image generation, and instruction-guided image editing. JoyAI-Image couples a spatially enhanced Multimodal Large Language Model (MLLM) with a Multimodal Diffusion Transformer (MMDiT), allowing perception and generation to interact through a shared multimodal interface. Around this architecture, we build a scalable training recipe that combines unified instruction tuning, long-text rendering supervision, spatially grounded data, and both general and spatial editing signals. This design gives the model broad multimodal capability while strengthening geometry-aware reasoning and controllable visual synthesis. Experiments across understanding, generation, long-text rendering, and editing benchmarks show that JoyAI-Image achieves state-of-the-art or highly competitive performance. More importantly, the bidirectional loop between enhanced understanding, controllable spatial editing, and novel-view-assisted reasoning enables the model to move beyond general visual competence toward stronger spatial intelligence. These results suggest a promising path for unified visual models in downstream applications such as vision-language-action systems and world models.