ChatPaper.aiChatPaper

Пробуждение пространственного интеллекта в унифицированном многомодальном понимании и генерации

Awaking Spatial Intelligence in Unified Multimodal Understanding and Generation

May 5, 2026
Авторы: Lin Song, Wenbo Li, Guoqing Ma, Wei Tang, Bo Wang, Yuan Zhang, Yijun Yang, Yicheng Xiao, Jianhui Liu, Yanbing Zhang, Guohui Zhang, Wenhu Zhang, Hang Xu, Nan Jiang, Xin Han, Haoze Sun, Maoquan Zhang, Haoyang Huang, Nan Duan
cs.AI

Аннотация

Мы представляем JoyAI-Image — унифицированную мультимодальную базовую модель для визуального понимания, генерации изображений по тексту и редактирования изображений по инструкциям. JoyAI-Image объединяет пространственно улучшенную мультимодальную большую языковую модель (MLLM) с мультимодальным диффузионным трансформером (MMDiT), что позволяет восприятию и генерации взаимодействовать через общий мультимодальный интерфейс. На основе этой архитектуры мы построили масштабируемый рецепт обучения, который сочетает унифицированную настройку по инструкциям, контроль визуализации длинных текстов, пространственно обоснованные данные, а также сигналы общего и пространственного редактирования. Такая конструкция наделяет модель широкими мультимодальными возможностями, одновременно усиливая геометрически осознанные рассуждения и управляемый визуальный синтез. Эксперименты на наборах данных для понимания, генерации, визуализации длинных текстов и редактирования показывают, что JoyAI-Image демонстрирует наилучшие или высококонкурентные результаты. Что более важно, двунаправленная связь между улучшенным пониманием, управляемым пространственным редактированием и рассуждениями с помощью новых ракурсов позволяет модели выйти за рамки общей визуальной компетенции к более сильному пространственному интеллекту. Эти результаты указывают на перспективный путь для унифицированных визуальных моделей в таких прикладных областях, как системы «зрение-язык-действие» и модели мира.
English
We present JoyAI-Image, a unified multimodal foundation model for visual understanding, text-to-image generation, and instruction-guided image editing. JoyAI-Image couples a spatially enhanced Multimodal Large Language Model (MLLM) with a Multimodal Diffusion Transformer (MMDiT), allowing perception and generation to interact through a shared multimodal interface. Around this architecture, we build a scalable training recipe that combines unified instruction tuning, long-text rendering supervision, spatially grounded data, and both general and spatial editing signals. This design gives the model broad multimodal capability while strengthening geometry-aware reasoning and controllable visual synthesis. Experiments across understanding, generation, long-text rendering, and editing benchmarks show that JoyAI-Image achieves state-of-the-art or highly competitive performance. More importantly, the bidirectional loop between enhanced understanding, controllable spatial editing, and novel-view-assisted reasoning enables the model to move beyond general visual competence toward stronger spatial intelligence. These results suggest a promising path for unified visual models in downstream applications such as vision-language-action systems and world models.
PDF80May 8, 2026