JanusCoder: Hacia una Interfaz Visual-Programática Fundamental para la Inteligencia de Código

Resumen

El alcance de la inteligencia del código neuronal se está expandiendo rápidamente más allá del código fuente basado en texto para abarcar las ricas salidas visuales que generan los programas. Esta dimensión visual es crítica para aplicaciones avanzadas como la generación flexible de contenido y la edición precisa y controlada por programas de visualizaciones. Sin embargo, el progreso se ha visto obstaculizado por la escasez de datos de código multimodal de alta calidad, un cuello de botella que surge de los desafíos en la síntesis y evaluación de la calidad. Para abordar estos desafíos, realizamos contribuciones desde una perspectiva tanto de datos como de modelado. Primero presentamos un kit de herramientas de síntesis completo que aprovecha las sinergias recíprocas entre las modalidades de datos para producir eficientemente un corpus a gran escala y de alta calidad que abarca desde gráficos estándar hasta interfaces de usuario web interactivas complejas y animaciones impulsadas por código. Aprovechando este kit de herramientas, construimos JanusCode-800K, el corpus de código multimodal más grande hasta la fecha. Esto impulsa el entrenamiento de nuestros modelos, JanusCoder y JanusCoderV, que establecen una interfaz visual-programática para generar código a partir de instrucciones textuales, entradas visuales o una combinación de ambas. Nuestro modelo unificado representa una desviación de los enfoques existentes que construyen modelos especializados para tareas aisladas. Experimentos exhaustivos en tareas de codificación centradas en texto y en visión demuestran el rendimiento superior de la serie JanusCoder, con nuestros modelos de escala 7B a 14B acercándose o incluso superando el rendimiento de modelos comerciales. Además, un análisis exhaustivo proporciona ideas clave para armonizar la lógica programática con su expresión visual. Nuestro código y puntos de control están disponibles en https://github.com/InternLM/JanusCoder.

English

The scope of neural code intelligence is rapidly expanding beyond text-based source code to encompass the rich visual outputs that programs generate. This visual dimension is critical for advanced applications like flexible content generation and precise, program-driven editing of visualizations. However, progress has been impeded by the scarcity of high-quality multimodal code data, a bottleneck stemming from challenges in synthesis and quality assessment. To address these challenges, we make contributions from both a data and modeling perspective. We first introduce a complete synthesis toolkit that leverages reciprocal synergies between data modalities to efficiently produce a large-scale, high-quality corpus spanning from standard charts to complex interactive web UIs and code-driven animations. Leveraging this toolkit, we construct JanusCode-800K, the largest multimodal code corpus to date. This powers the training of our models, JanusCoder and JanusCoderV, which establish a visual-programmatic interface for generating code from textual instructions, visual inputs, or a combination of both. Our unified model is a departure from existing approaches that build specialized models for isolated tasks. Extensive experiments on both text-centric and vision-centric coding tasks demonstrate the superior performance of the JanusCoder series, with our 7B to 14B scale models approaching or even exceeding the performance of commercial models. Furthermore, extensive analysis provides key insights into harmonizing programmatic logic with its visual expression. Our code and checkpoints will are available at https://github.com/InternLM/JanusCoder.

JanusCoder: Hacia una Interfaz Visual-Programática Fundamental para la Inteligencia de Código

JanusCoder: Towards a Foundational Visual-Programmatic Interface for Code Intelligence

Resumen

Support