ChatPaper.aiChatPaper

Despertando la Inteligencia Espacial en la Comprensión y Generación Multimodal Unificada

Awaking Spatial Intelligence in Unified Multimodal Understanding and Generation

May 5, 2026
Autores: Lin Song, Wenbo Li, Guoqing Ma, Wei Tang, Bo Wang, Yuan Zhang, Yijun Yang, Yicheng Xiao, Jianhui Liu, Yanbing Zhang, Guohui Zhang, Wenhu Zhang, Hang Xu, Nan Jiang, Xin Han, Haoze Sun, Maoquan Zhang, Haoyang Huang, Nan Duan
cs.AI

Resumen

Presentamos JoyAI-Image, un modelo de base multimodal unificado para comprensión visual, generación de imágenes a partir de texto y edición de imágenes guiada por instrucciones. JoyAI-Image combina un Modelo de Lenguaje Grande Multimodal (MLLM) espacialmente mejorado con un Transformer de Difusión Multimodal (MMDiT), permitiendo que la percepción y la generación interactúen a través de una interfaz multimodal compartida. En torno a esta arquitectura, construimos una metodología de entrenamiento escalable que combina ajuste fino unificado por instrucciones, supervisión de renderizado de texto largo, datos con base espacial, y señales de edición tanto generales como espaciales. Este diseño otorga al modelo una amplia capacidad multimodal mientras fortalece el razonamiento consciente de la geometría y la síntesis visual controlable. Los experimentos en benchmarks de comprensión, generación, renderizado de texto largo y edición demuestran que JoyAI-Image logra un rendimiento state-of-the-art o altamente competitivo. Más importante aún, el bucle bidireccional entre la comprensión mejorada, la edición espacial controlable y el razonamiento asistido por nuevas perspectivas permite al modelo ir más allá de la competencia visual general hacia una inteligencia espacial más sólida. Estos resultados sugieren un camino prometedor para los modelos visuales unificados en aplicaciones descendentes como los sistemas visión-lenguaje-acción y los modelos del mundo.
English
We present JoyAI-Image, a unified multimodal foundation model for visual understanding, text-to-image generation, and instruction-guided image editing. JoyAI-Image couples a spatially enhanced Multimodal Large Language Model (MLLM) with a Multimodal Diffusion Transformer (MMDiT), allowing perception and generation to interact through a shared multimodal interface. Around this architecture, we build a scalable training recipe that combines unified instruction tuning, long-text rendering supervision, spatially grounded data, and both general and spatial editing signals. This design gives the model broad multimodal capability while strengthening geometry-aware reasoning and controllable visual synthesis. Experiments across understanding, generation, long-text rendering, and editing benchmarks show that JoyAI-Image achieves state-of-the-art or highly competitive performance. More importantly, the bidirectional loop between enhanced understanding, controllable spatial editing, and novel-view-assisted reasoning enables the model to move beyond general visual competence toward stronger spatial intelligence. These results suggest a promising path for unified visual models in downstream applications such as vision-language-action systems and world models.
PDF80May 8, 2026