JanusCoder: Hacia una Interfaz Visual-Programática Fundamental para la Inteligencia de Código
JanusCoder: Towards a Foundational Visual-Programmatic Interface for Code Intelligence
October 27, 2025
Autores: Qiushi Sun, Jingyang Gong, Yang Liu, Qiaosheng Chen, Lei Li, Kai Chen, Qipeng Guo, Ben Kao, Fei Yuan
cs.AI
Resumen
El alcance de la inteligencia del código neuronal se está expandiendo rápidamente más allá del código fuente basado en texto para abarcar las ricas salidas visuales que generan los programas. Esta dimensión visual es crítica para aplicaciones avanzadas como la generación flexible de contenido y la edición precisa y controlada por programas de visualizaciones. Sin embargo, el progreso se ha visto obstaculizado por la escasez de datos de código multimodal de alta calidad, un cuello de botella que surge de los desafíos en la síntesis y evaluación de la calidad. Para abordar estos desafíos, realizamos contribuciones desde una perspectiva tanto de datos como de modelado. Primero presentamos un kit de herramientas de síntesis completo que aprovecha las sinergias recíprocas entre las modalidades de datos para producir eficientemente un corpus a gran escala y de alta calidad que abarca desde gráficos estándar hasta interfaces de usuario web interactivas complejas y animaciones impulsadas por código. Aprovechando este kit de herramientas, construimos JanusCode-800K, el corpus de código multimodal más grande hasta la fecha. Esto impulsa el entrenamiento de nuestros modelos, JanusCoder y JanusCoderV, que establecen una interfaz visual-programática para generar código a partir de instrucciones textuales, entradas visuales o una combinación de ambas. Nuestro modelo unificado representa una desviación de los enfoques existentes que construyen modelos especializados para tareas aisladas. Experimentos exhaustivos en tareas de codificación centradas en texto y en visión demuestran el rendimiento superior de la serie JanusCoder, con nuestros modelos de escala 7B a 14B acercándose o incluso superando el rendimiento de modelos comerciales. Además, un análisis exhaustivo proporciona ideas clave para armonizar la lógica programática con su expresión visual. Nuestro código y puntos de control están disponibles en https://github.com/InternLM/JanusCoder.
English
The scope of neural code intelligence is rapidly expanding beyond text-based
source code to encompass the rich visual outputs that programs generate. This
visual dimension is critical for advanced applications like flexible content
generation and precise, program-driven editing of visualizations. However,
progress has been impeded by the scarcity of high-quality multimodal code data,
a bottleneck stemming from challenges in synthesis and quality assessment. To
address these challenges, we make contributions from both a data and modeling
perspective. We first introduce a complete synthesis toolkit that leverages
reciprocal synergies between data modalities to efficiently produce a
large-scale, high-quality corpus spanning from standard charts to complex
interactive web UIs and code-driven animations. Leveraging this toolkit, we
construct JanusCode-800K, the largest multimodal code corpus to date. This
powers the training of our models, JanusCoder and JanusCoderV, which establish
a visual-programmatic interface for generating code from textual instructions,
visual inputs, or a combination of both. Our unified model is a departure from
existing approaches that build specialized models for isolated tasks. Extensive
experiments on both text-centric and vision-centric coding tasks demonstrate
the superior performance of the JanusCoder series, with our 7B to 14B scale
models approaching or even exceeding the performance of commercial models.
Furthermore, extensive analysis provides key insights into harmonizing
programmatic logic with its visual expression. Our code and checkpoints will
are available at https://github.com/InternLM/JanusCoder.