VisCodex: Generazione Unificata di Codice Multimodale tramite Fusione di Modelli Visivi e di Programmazione
VisCodex: Unified Multimodal Code Generation via Merging Vision and Coding Models
August 13, 2025
Autori: Lingjie Jiang, Shaohan Huang, Xun Wu, Yixia Li, Dongdong Zhang, Furu Wei
cs.AI
Abstract
I modelli linguistici multimodali di grandi dimensioni (MLLM) hanno compiuto progressi significativi nell'integrazione della comprensione visiva e testuale. Tuttavia, la loro capacità di generare codice da input multimodali rimane limitata. In questo lavoro, introduciamo VisCodex, un framework unificato che fonde in modo fluido modelli visivi e linguistici di codifica per dotare gli MLLM di solide capacità di generazione di codice multimodale. Sfruttando una tecnica di fusione di modelli basata su vettori di task, integriamo un avanzato modello linguistico di codifica in un robusto backbone visione-linguaggio, preservando sia la comprensione visiva che le competenze avanzate di codifica. Per supportare l'addestramento e la valutazione, introduciamo il Multimodal Coding Dataset (MCD), una raccolta su larga scala e diversificata di 598k campioni, che include codice HTML di alta qualità, coppie immagine-codice di grafici, domande e risposte di StackOverflow arricchite da immagini e problemi algoritmici. Inoltre, proponiamo InfiBench-V, un benchmark nuovo e impegnativo progettato specificamente per valutare i modelli su domande di programmazione ricche di elementi visivi e legate al mondo reale, che richiedono una comprensione sfumata sia dei contesti testuali che visivi. Esperimenti estensivi dimostrano che VisCodex raggiunge prestazioni all'avanguardia tra gli MLLM open-source e si avvicina a modelli proprietari come GPT-4o, evidenziando l'efficacia della nostra strategia di fusione di modelli e dei nuovi dataset.
English
Multimodal large language models (MLLMs) have significantly advanced the
integration of visual and textual understanding. However, their ability to
generate code from multimodal inputs remains limited. In this work, we
introduce VisCodex, a unified framework that seamlessly merges vision and
coding language models to empower MLLMs with strong multimodal code generation
abilities. Leveraging a task vector-based model merging technique, we integrate
a state-of-the-art coding LLM into a strong vision-language backbone, while
preserving both visual comprehension and advanced coding skills. To support
training and evaluation, we introduce the Multimodal Coding Dataset (MCD), a
large-scale and diverse collection of 598k samples, including high-quality HTML
code, chart image-code pairs, image-augmented StackOverflow QA, and algorithmic
problems. Furthermore, we propose InfiBench-V, a novel and challenging
benchmark specifically designed to assess models on visually-rich, real-world
programming questions that demand a nuanced understanding of both textual and
visual contexts. Extensive experiments show that VisCodex achieves
state-of-the-art performance among open-source MLLMs and approaches proprietary
models like GPT-4o, highlighting the effectiveness of our model merging
strategy and new datasets.