ChatPaper.aiChatPaper

VisCodex: Geração Unificada de Código Multimodal por meio da Fusão de Modelos de Visão e Codificação

VisCodex: Unified Multimodal Code Generation via Merging Vision and Coding Models

August 13, 2025
Autores: Lingjie Jiang, Shaohan Huang, Xun Wu, Yixia Li, Dongdong Zhang, Furu Wei
cs.AI

Resumo

Os modelos de linguagem multimodal de grande escala (MLLMs) avançaram significativamente a integração do entendimento visual e textual. No entanto, sua capacidade de gerar código a partir de entradas multimodais ainda é limitada. Neste trabalho, apresentamos o VisCodex, um framework unificado que combina de forma harmoniosa modelos de visão e linguagem de programação, capacitando os MLLMs com habilidades robustas de geração de código multimodal. Utilizando uma técnica de fusão de modelos baseada em vetores de tarefa, integramos um modelo de linguagem de programação de última geração em uma base sólida de visão e linguagem, preservando tanto a compreensão visual quanto as habilidades avançadas de codificação. Para apoiar o treinamento e a avaliação, introduzimos o Multimodal Coding Dataset (MCD), uma coleção extensa e diversificada de 598 mil amostras, incluindo código HTML de alta qualidade, pares de imagem-código de gráficos, perguntas e respostas do StackOverflow aumentadas com imagens e problemas algorítmicos. Além disso, propomos o InfiBench-V, um novo e desafiador benchmark projetado especificamente para avaliar modelos em questões de programação do mundo real, ricas em elementos visuais, que exigem uma compreensão refinada de contextos textuais e visuais. Experimentos extensivos demonstram que o VisCodex alcança desempenho de ponta entre os MLLMs de código aberto e se aproxima de modelos proprietários como o GPT-4o, destacando a eficácia de nossa estratégia de fusão de modelos e dos novos conjuntos de dados.
English
Multimodal large language models (MLLMs) have significantly advanced the integration of visual and textual understanding. However, their ability to generate code from multimodal inputs remains limited. In this work, we introduce VisCodex, a unified framework that seamlessly merges vision and coding language models to empower MLLMs with strong multimodal code generation abilities. Leveraging a task vector-based model merging technique, we integrate a state-of-the-art coding LLM into a strong vision-language backbone, while preserving both visual comprehension and advanced coding skills. To support training and evaluation, we introduce the Multimodal Coding Dataset (MCD), a large-scale and diverse collection of 598k samples, including high-quality HTML code, chart image-code pairs, image-augmented StackOverflow QA, and algorithmic problems. Furthermore, we propose InfiBench-V, a novel and challenging benchmark specifically designed to assess models on visually-rich, real-world programming questions that demand a nuanced understanding of both textual and visual contexts. Extensive experiments show that VisCodex achieves state-of-the-art performance among open-source MLLMs and approaches proprietary models like GPT-4o, highlighting the effectiveness of our model merging strategy and new datasets.
PDF62August 14, 2025