JanusCoder : Vers une interface visuelle-programmatique fondamentale pour l'intelligence du code

papers.abstract

Le domaine de l'intelligence du code neuronal s'étend rapidement au-delà du code source textuel pour englober les riches sorties visuelles générées par les programmes. Cette dimension visuelle est cruciale pour des applications avancées telles que la génération flexible de contenu et l'édition précise et pilotée par programme de visualisations. Cependant, les progrès sont entravés par la rareté de données de code multimodales de haute qualité, un goulot d'étranglement découlant des difficultés de synthèse et d'évaluation de la qualité. Pour relever ces défis, nous apportons des contributions tant sur le plan des données que de la modélisation. Nous présentons d'abord une boîte à outils de synthèse complète qui exploite les synergies réciproques entre les modalités de données pour produire efficacement un corpus à grande échelle et de haute qualité, allant des graphiques standards aux interfaces web interactives complexes et aux animations pilotées par le code. En tirant parti de cet outil, nous construisons JanusCode-800K, le plus grand corpus de code multimodal à ce jour. Cela alimente l'entraînement de nos modèles, JanusCoder et JanusCoderV, qui établissent une interface visuo-programmatique pour générer du code à partir d'instructions textuelles, d'entrées visuelles ou d'une combinaison des deux. Notre modèle unifié marque une rupture avec les approches existantes qui construisent des modèles spécialisés pour des tâches isolées. Des expérimentations approfondies sur des tâches de codage centrées sur le texte et sur la vision démontrent la performance supérieure de la série JanusCoder, avec nos modèles de 7B à 14B approchant ou dépassant même les performances des modèles commerciaux. De plus, une analyse approfondie fournit des insights clés sur l'harmonisation de la logique programmatique avec son expression visuelle. Notre code et nos points de contrôle sont disponibles à l'adresse https://github.com/InternLM/JanusCoder.

English

The scope of neural code intelligence is rapidly expanding beyond text-based source code to encompass the rich visual outputs that programs generate. This visual dimension is critical for advanced applications like flexible content generation and precise, program-driven editing of visualizations. However, progress has been impeded by the scarcity of high-quality multimodal code data, a bottleneck stemming from challenges in synthesis and quality assessment. To address these challenges, we make contributions from both a data and modeling perspective. We first introduce a complete synthesis toolkit that leverages reciprocal synergies between data modalities to efficiently produce a large-scale, high-quality corpus spanning from standard charts to complex interactive web UIs and code-driven animations. Leveraging this toolkit, we construct JanusCode-800K, the largest multimodal code corpus to date. This powers the training of our models, JanusCoder and JanusCoderV, which establish a visual-programmatic interface for generating code from textual instructions, visual inputs, or a combination of both. Our unified model is a departure from existing approaches that build specialized models for isolated tasks. Extensive experiments on both text-centric and vision-centric coding tasks demonstrate the superior performance of the JanusCoder series, with our 7B to 14B scale models approaching or even exceeding the performance of commercial models. Furthermore, extensive analysis provides key insights into harmonizing programmatic logic with its visual expression. Our code and checkpoints will are available at https://github.com/InternLM/JanusCoder.

JanusCoder : Vers une interface visuelle-programmatique fondamentale pour l'intelligence du code

JanusCoder: Towards a Foundational Visual-Programmatic Interface for Code Intelligence

papers.abstract

Support