VisCodex: Vereinheitlichte multimodale Codegenerierung durch die Verschmelzung von Bild- und Codierungsmodellen

papers.abstract

Multimodale große Sprachmodelle (MLLMs) haben die Integration von visuellem und textuellem Verständnis erheblich vorangetrieben. Ihre Fähigkeit, Code aus multimodalen Eingaben zu generieren, bleibt jedoch begrenzt. In dieser Arbeit stellen wir VisCodex vor, ein einheitliches Framework, das nahtlos Vision- und Codierungs-Sprachmodelle vereint, um MLLMs mit starken Fähigkeiten zur multimodalen Codegeneration auszustatten. Durch die Nutzung einer auf Aufgabenvektoren basierenden Modellzusammenführungstechnik integrieren wir ein state-of-the-art Codierungs-LLM in ein leistungsstarkes Vision-Sprachmodell, wobei sowohl das visuelle Verständnis als auch fortgeschrittene Codierungsfähigkeiten erhalten bleiben. Zur Unterstützung von Training und Evaluation führen wir das Multimodal Coding Dataset (MCD) ein, eine umfangreiche und vielfältige Sammlung von 598k Proben, die hochwertigen HTML-Code, Diagramm-Bild-Code-Paare, bildergestützte StackOverflow-QA und algorithmische Probleme umfasst. Darüber hinaus schlagen wir InfiBench-V vor, einen neuartigen und anspruchsvollen Benchmark, der speziell entwickelt wurde, um Modelle anhand von visuell anspruchsvollen, realen Programmierfragen zu bewerten, die ein differenziertes Verständnis sowohl von textuellen als auch von visuellen Kontexten erfordern. Umfangreiche Experimente zeigen, dass VisCodex state-of-the-art Leistungen unter Open-Source-MLLMs erreicht und sich proprietären Modellen wie GPT-4o annähert, was die Wirksamkeit unserer Modellzusammenführungsstrategie und der neuen Datensätze unterstreicht.

English

Multimodal large language models (MLLMs) have significantly advanced the integration of visual and textual understanding. However, their ability to generate code from multimodal inputs remains limited. In this work, we introduce VisCodex, a unified framework that seamlessly merges vision and coding language models to empower MLLMs with strong multimodal code generation abilities. Leveraging a task vector-based model merging technique, we integrate a state-of-the-art coding LLM into a strong vision-language backbone, while preserving both visual comprehension and advanced coding skills. To support training and evaluation, we introduce the Multimodal Coding Dataset (MCD), a large-scale and diverse collection of 598k samples, including high-quality HTML code, chart image-code pairs, image-augmented StackOverflow QA, and algorithmic problems. Furthermore, we propose InfiBench-V, a novel and challenging benchmark specifically designed to assess models on visually-rich, real-world programming questions that demand a nuanced understanding of both textual and visual contexts. Extensive experiments show that VisCodex achieves state-of-the-art performance among open-source MLLMs and approaches proprietary models like GPT-4o, highlighting the effectiveness of our model merging strategy and new datasets.

VisCodex: Vereinheitlichte multimodale Codegenerierung durch die Verschmelzung von Bild- und Codierungsmodellen

VisCodex: Unified Multimodal Code Generation via Merging Vision and Coding Models

papers.abstract

Support