ChatPaper.aiChatPaper

VisCodex: Generación Unificada de Código Multimodal mediante la Fusión de Modelos de Visión y Codificación

VisCodex: Unified Multimodal Code Generation via Merging Vision and Coding Models

August 13, 2025
Autores: Lingjie Jiang, Shaohan Huang, Xun Wu, Yixia Li, Dongdong Zhang, Furu Wei
cs.AI

Resumen

Los modelos de lenguaje multimodal de gran escala (MLLMs, por sus siglas en inglés) han avanzado significativamente en la integración de la comprensión visual y textual. Sin embargo, su capacidad para generar código a partir de entradas multimodales sigue siendo limitada. En este trabajo, presentamos VisCodex, un marco unificado que fusiona de manera fluida los modelos de visión y lenguaje de programación, dotando a los MLLMs de una sólida capacidad de generación de código multimodal. Aprovechando una técnica de fusión de modelos basada en vectores de tareas, integramos un modelo de lenguaje de programación de última generación en una arquitectura robusta de visión y lenguaje, preservando tanto la comprensión visual como las habilidades avanzadas de codificación. Para respaldar el entrenamiento y la evaluación, introducimos el Conjunto de Datos de Codificación Multimodal (MCD, por sus siglas en inglés), una colección diversa y a gran escala de 598k muestras, que incluye código HTML de alta calidad, pares de imágenes de gráficos y código, preguntas y respuestas de StackOverflow aumentadas con imágenes, y problemas algorítmicos. Además, proponemos InfiBench-V, un nuevo y desafiante punto de referencia diseñado específicamente para evaluar modelos en preguntas de programación del mundo real visualmente ricas, que requieren una comprensión matizada de contextos tanto textuales como visuales. Experimentos exhaustivos demuestran que VisCodex alcanza un rendimiento de vanguardia entre los MLLMs de código abierto y se acerca a modelos propietarios como GPT-4o, destacando la efectividad de nuestra estrategia de fusión de modelos y los nuevos conjuntos de datos.
English
Multimodal large language models (MLLMs) have significantly advanced the integration of visual and textual understanding. However, their ability to generate code from multimodal inputs remains limited. In this work, we introduce VisCodex, a unified framework that seamlessly merges vision and coding language models to empower MLLMs with strong multimodal code generation abilities. Leveraging a task vector-based model merging technique, we integrate a state-of-the-art coding LLM into a strong vision-language backbone, while preserving both visual comprehension and advanced coding skills. To support training and evaluation, we introduce the Multimodal Coding Dataset (MCD), a large-scale and diverse collection of 598k samples, including high-quality HTML code, chart image-code pairs, image-augmented StackOverflow QA, and algorithmic problems. Furthermore, we propose InfiBench-V, a novel and challenging benchmark specifically designed to assess models on visually-rich, real-world programming questions that demand a nuanced understanding of both textual and visual contexts. Extensive experiments show that VisCodex achieves state-of-the-art performance among open-source MLLMs and approaches proprietary models like GPT-4o, highlighting the effectiveness of our model merging strategy and new datasets.
PDF42August 14, 2025