ChatPaper.aiChatPaper

VisCodex: Унифицированная генерация кода через объединение визуальных и кодирующих моделей

VisCodex: Unified Multimodal Code Generation via Merging Vision and Coding Models

August 13, 2025
Авторы: Lingjie Jiang, Shaohan Huang, Xun Wu, Yixia Li, Dongdong Zhang, Furu Wei
cs.AI

Аннотация

Мультимодальные большие языковые модели (MLLMs) значительно продвинули интеграцию визуального и текстового понимания. Однако их способность генерировать код на основе мультимодальных входных данных остается ограниченной. В данной работе мы представляем VisCodex — унифицированную структуру, которая плавно объединяет модели для обработки изображений и языковые модели для программирования, наделяя MLLMs мощными способностями к мультимодальной генерации кода. Используя метод объединения моделей на основе векторов задач, мы интегрируем передовую языковую модель для программирования в мощную базовую модель для обработки изображений и текста, сохраняя как визуальное понимание, так и продвинутые навыки программирования. Для поддержки обучения и оценки мы представляем Multimodal Coding Dataset (MCD) — крупномасштабный и разнообразный набор из 598 тыс. образцов, включающий высококачественный HTML-код, пары изображений графиков и кода, вопросы и ответы с изображениями из StackOverflow, а также алгоритмические задачи. Кроме того, мы предлагаем InfiBench-V — новый и сложный бенчмарк, специально разработанный для оценки моделей на визуально насыщенных, реальных задачах программирования, требующих тонкого понимания как текстового, так и визуального контекста. Многочисленные эксперименты показывают, что VisCodex достигает наилучших результатов среди открытых MLLMs и приближается к проприетарным моделям, таким как GPT-4o, что подчеркивает эффективность нашей стратегии объединения моделей и новых наборов данных.
English
Multimodal large language models (MLLMs) have significantly advanced the integration of visual and textual understanding. However, their ability to generate code from multimodal inputs remains limited. In this work, we introduce VisCodex, a unified framework that seamlessly merges vision and coding language models to empower MLLMs with strong multimodal code generation abilities. Leveraging a task vector-based model merging technique, we integrate a state-of-the-art coding LLM into a strong vision-language backbone, while preserving both visual comprehension and advanced coding skills. To support training and evaluation, we introduce the Multimodal Coding Dataset (MCD), a large-scale and diverse collection of 598k samples, including high-quality HTML code, chart image-code pairs, image-augmented StackOverflow QA, and algorithmic problems. Furthermore, we propose InfiBench-V, a novel and challenging benchmark specifically designed to assess models on visually-rich, real-world programming questions that demand a nuanced understanding of both textual and visual contexts. Extensive experiments show that VisCodex achieves state-of-the-art performance among open-source MLLMs and approaches proprietary models like GPT-4o, highlighting the effectiveness of our model merging strategy and new datasets.
PDF42August 14, 2025