VisCodex: Vereinheitlichte multimodale Codegenerierung durch die Verschmelzung von Bild- und Codierungsmodellen
VisCodex: Unified Multimodal Code Generation via Merging Vision and Coding Models
August 13, 2025
papers.authors: Lingjie Jiang, Shaohan Huang, Xun Wu, Yixia Li, Dongdong Zhang, Furu Wei
cs.AI
papers.abstract
Multimodale große Sprachmodelle (MLLMs) haben die Integration von visuellem und textuellem Verständnis erheblich vorangetrieben. Ihre Fähigkeit, Code aus multimodalen Eingaben zu generieren, bleibt jedoch begrenzt. In dieser Arbeit stellen wir VisCodex vor, ein einheitliches Framework, das nahtlos Vision- und Codierungs-Sprachmodelle vereint, um MLLMs mit starken Fähigkeiten zur multimodalen Codegeneration auszustatten. Durch die Nutzung einer auf Aufgabenvektoren basierenden Modellzusammenführungstechnik integrieren wir ein state-of-the-art Codierungs-LLM in ein leistungsstarkes Vision-Sprachmodell, wobei sowohl das visuelle Verständnis als auch fortgeschrittene Codierungsfähigkeiten erhalten bleiben. Zur Unterstützung von Training und Evaluation führen wir das Multimodal Coding Dataset (MCD) ein, eine umfangreiche und vielfältige Sammlung von 598k Proben, die hochwertigen HTML-Code, Diagramm-Bild-Code-Paare, bildergestützte StackOverflow-QA und algorithmische Probleme umfasst. Darüber hinaus schlagen wir InfiBench-V vor, einen neuartigen und anspruchsvollen Benchmark, der speziell entwickelt wurde, um Modelle anhand von visuell anspruchsvollen, realen Programmierfragen zu bewerten, die ein differenziertes Verständnis sowohl von textuellen als auch von visuellen Kontexten erfordern. Umfangreiche Experimente zeigen, dass VisCodex state-of-the-art Leistungen unter Open-Source-MLLMs erreicht und sich proprietären Modellen wie GPT-4o annähert, was die Wirksamkeit unserer Modellzusammenführungsstrategie und der neuen Datensätze unterstreicht.
English
Multimodal large language models (MLLMs) have significantly advanced the
integration of visual and textual understanding. However, their ability to
generate code from multimodal inputs remains limited. In this work, we
introduce VisCodex, a unified framework that seamlessly merges vision and
coding language models to empower MLLMs with strong multimodal code generation
abilities. Leveraging a task vector-based model merging technique, we integrate
a state-of-the-art coding LLM into a strong vision-language backbone, while
preserving both visual comprehension and advanced coding skills. To support
training and evaluation, we introduce the Multimodal Coding Dataset (MCD), a
large-scale and diverse collection of 598k samples, including high-quality HTML
code, chart image-code pairs, image-augmented StackOverflow QA, and algorithmic
problems. Furthermore, we propose InfiBench-V, a novel and challenging
benchmark specifically designed to assess models on visually-rich, real-world
programming questions that demand a nuanced understanding of both textual and
visual contexts. Extensive experiments show that VisCodex achieves
state-of-the-art performance among open-source MLLMs and approaches proprietary
models like GPT-4o, highlighting the effectiveness of our model merging
strategy and new datasets.