VisCodex: Generazione Unificata di Codice Multimodale tramite Fusione di Modelli Visivi e di Programmazione

Abstract

I modelli linguistici multimodali di grandi dimensioni (MLLM) hanno compiuto progressi significativi nell'integrazione della comprensione visiva e testuale. Tuttavia, la loro capacità di generare codice da input multimodali rimane limitata. In questo lavoro, introduciamo VisCodex, un framework unificato che fonde in modo fluido modelli visivi e linguistici di codifica per dotare gli MLLM di solide capacità di generazione di codice multimodale. Sfruttando una tecnica di fusione di modelli basata su vettori di task, integriamo un avanzato modello linguistico di codifica in un robusto backbone visione-linguaggio, preservando sia la comprensione visiva che le competenze avanzate di codifica. Per supportare l'addestramento e la valutazione, introduciamo il Multimodal Coding Dataset (MCD), una raccolta su larga scala e diversificata di 598k campioni, che include codice HTML di alta qualità, coppie immagine-codice di grafici, domande e risposte di StackOverflow arricchite da immagini e problemi algoritmici. Inoltre, proponiamo InfiBench-V, un benchmark nuovo e impegnativo progettato specificamente per valutare i modelli su domande di programmazione ricche di elementi visivi e legate al mondo reale, che richiedono una comprensione sfumata sia dei contesti testuali che visivi. Esperimenti estensivi dimostrano che VisCodex raggiunge prestazioni all'avanguardia tra gli MLLM open-source e si avvicina a modelli proprietari come GPT-4o, evidenziando l'efficacia della nostra strategia di fusione di modelli e dei nuovi dataset.

English

Multimodal large language models (MLLMs) have significantly advanced the integration of visual and textual understanding. However, their ability to generate code from multimodal inputs remains limited. In this work, we introduce VisCodex, a unified framework that seamlessly merges vision and coding language models to empower MLLMs with strong multimodal code generation abilities. Leveraging a task vector-based model merging technique, we integrate a state-of-the-art coding LLM into a strong vision-language backbone, while preserving both visual comprehension and advanced coding skills. To support training and evaluation, we introduce the Multimodal Coding Dataset (MCD), a large-scale and diverse collection of 598k samples, including high-quality HTML code, chart image-code pairs, image-augmented StackOverflow QA, and algorithmic problems. Furthermore, we propose InfiBench-V, a novel and challenging benchmark specifically designed to assess models on visually-rich, real-world programming questions that demand a nuanced understanding of both textual and visual contexts. Extensive experiments show that VisCodex achieves state-of-the-art performance among open-source MLLMs and approaches proprietary models like GPT-4o, highlighting the effectiveness of our model merging strategy and new datasets.

VisCodex: Generazione Unificata di Codice Multimodale tramite Fusione di Modelli Visivi e di Programmazione

VisCodex: Unified Multimodal Code Generation via Merging Vision and Coding Models

Abstract

Support