VisCodex : Génération unifiée de code multimodal par fusion de modèles de vision et de programmation
VisCodex: Unified Multimodal Code Generation via Merging Vision and Coding Models
August 13, 2025
papers.authors: Lingjie Jiang, Shaohan Huang, Xun Wu, Yixia Li, Dongdong Zhang, Furu Wei
cs.AI
papers.abstract
Les modèles de langage multimodaux de grande taille (MLLMs) ont considérablement fait progresser l'intégration de la compréhension visuelle et textuelle. Cependant, leur capacité à générer du code à partir d'entrées multimodales reste limitée. Dans ce travail, nous présentons VisCodex, un cadre unifié qui fusionne de manière transparente des modèles de vision et de langage de programmation pour doter les MLLMs de solides capacités de génération de code multimodal. En exploitant une technique de fusion de modèles basée sur des vecteurs de tâches, nous intégrons un modèle de langage de programmation de pointe dans une architecture robuste de vision et langage, tout en préservant à la fois la compréhension visuelle et les compétences avancées en programmation. Pour soutenir l'entraînement et l'évaluation, nous introduisons le Multimodal Coding Dataset (MCD), une collection à grande échelle et diversifiée de 598k échantillons, comprenant du code HTML de haute qualité, des paires image-code de graphiques, des questions-réponses StackOverflow enrichies d'images, et des problèmes algorithmiques. Par ailleurs, nous proposons InfiBench-V, un nouveau benchmark exigeant conçu spécifiquement pour évaluer les modèles sur des questions de programmation réalistes et visuellement riches, nécessitant une compréhension nuancée des contextes textuels et visuels. Des expériences approfondies montrent que VisCodex atteint des performances de pointe parmi les MLLMs open-source et se rapproche des modèles propriétaires comme GPT-4o, soulignant l'efficacité de notre stratégie de fusion de modèles et des nouveaux jeux de données.
English
Multimodal large language models (MLLMs) have significantly advanced the
integration of visual and textual understanding. However, their ability to
generate code from multimodal inputs remains limited. In this work, we
introduce VisCodex, a unified framework that seamlessly merges vision and
coding language models to empower MLLMs with strong multimodal code generation
abilities. Leveraging a task vector-based model merging technique, we integrate
a state-of-the-art coding LLM into a strong vision-language backbone, while
preserving both visual comprehension and advanced coding skills. To support
training and evaluation, we introduce the Multimodal Coding Dataset (MCD), a
large-scale and diverse collection of 598k samples, including high-quality HTML
code, chart image-code pairs, image-augmented StackOverflow QA, and algorithmic
problems. Furthermore, we propose InfiBench-V, a novel and challenging
benchmark specifically designed to assess models on visually-rich, real-world
programming questions that demand a nuanced understanding of both textual and
visual contexts. Extensive experiments show that VisCodex achieves
state-of-the-art performance among open-source MLLMs and approaches proprietary
models like GPT-4o, highlighting the effectiveness of our model merging
strategy and new datasets.