ChatPaper.aiChatPaper

VisCodex: Geünificeerde multimodale codegeneratie via het samenvoegen van visie- en codemodellen

VisCodex: Unified Multimodal Code Generation via Merging Vision and Coding Models

August 13, 2025
Auteurs: Lingjie Jiang, Shaohan Huang, Xun Wu, Yixia Li, Dongdong Zhang, Furu Wei
cs.AI

Samenvatting

Multimodale grote taalmodellen (MLLMs) hebben de integratie van visueel en tekstueel begrip aanzienlijk vooruitgeholpen. Hun vermogen om code te genereren op basis van multimodale invoer blijft echter beperkt. In dit werk introduceren we VisCodex, een uniform raamwerk dat visie- en coderings-taalmodellen naadloos samenvoegt om MLLMs te voorzien van sterke multimodale codegeneratie-mogelijkheden. Door gebruik te maken van een taakvector-gebaseerde modelmergingtechniek integreren we een state-of-the-art coderings-LLM in een robuuste visie-taal-backbone, waarbij zowel visueel begrip als geavanceerde coderingsvaardigheden behouden blijven. Om training en evaluatie te ondersteunen, introduceren we de Multimodale Coderingsdataset (MCD), een grootschalige en diverse verzameling van 598k samples, waaronder hoogwaardige HTML-code, grafiekafbeelding-code-paren, beeldverrijkte StackOverflow QA en algoritmische problemen. Daarnaast stellen we InfiBench-V voor, een nieuw en uitdagend benchmark dat specifiek is ontworpen om modellen te beoordelen op visueel rijke, real-world programmeervragen die een genuanceerd begrip van zowel tekstuele als visuele context vereisen. Uitgebreide experimenten tonen aan dat VisCodex state-of-the-art prestaties behaalt onder open-source MLLMs en in de buurt komt van propriëtaire modellen zoals GPT-4o, wat de effectiviteit van onze modelmergingstrategie en nieuwe datasets benadrukt.
English
Multimodal large language models (MLLMs) have significantly advanced the integration of visual and textual understanding. However, their ability to generate code from multimodal inputs remains limited. In this work, we introduce VisCodex, a unified framework that seamlessly merges vision and coding language models to empower MLLMs with strong multimodal code generation abilities. Leveraging a task vector-based model merging technique, we integrate a state-of-the-art coding LLM into a strong vision-language backbone, while preserving both visual comprehension and advanced coding skills. To support training and evaluation, we introduce the Multimodal Coding Dataset (MCD), a large-scale and diverse collection of 598k samples, including high-quality HTML code, chart image-code pairs, image-augmented StackOverflow QA, and algorithmic problems. Furthermore, we propose InfiBench-V, a novel and challenging benchmark specifically designed to assess models on visually-rich, real-world programming questions that demand a nuanced understanding of both textual and visual contexts. Extensive experiments show that VisCodex achieves state-of-the-art performance among open-source MLLMs and approaches proprietary models like GPT-4o, highlighting the effectiveness of our model merging strategy and new datasets.
PDF62August 14, 2025