JanusCoder: Auf dem Weg zu einer grundlegenden visuell-programmatischen Schnittstelle für Code-Intelligenz
JanusCoder: Towards a Foundational Visual-Programmatic Interface for Code Intelligence
October 27, 2025
papers.authors: Qiushi Sun, Jingyang Gong, Yang Liu, Qiaosheng Chen, Lei Li, Kai Chen, Qipeng Guo, Ben Kao, Fei Yuan
cs.AI
papers.abstract
Der Anwendungsbereich neuronaler Code-Intelligenz erweitert sich rapide über textbasierten Quellcode hinaus und umfasst zunehmend die visuellen Ausgaben, die Programme generieren. Diese visuelle Dimension ist entscheidend für fortgeschrittene Anwendungen wie flexible Inhaltsgenerierung und präzise, programmgesteuerte Bearbeitung von Visualisierungen. Der Fortschritt wurde jedoch durch den Mangel an hochwertigen multimodalen Codedaten behindert, ein Engpass, der auf Herausforderungen bei der Synthese und Qualitätsbewertung zurückzuführen ist. Um diese Herausforderungen zu bewältigen, leisten wir Beiträge aus sowohl einer Daten- als auch einer Modellierungsperspektive.
Wir stellen zunächst ein vollständiges Synthese-Toolkit vor, das reziproke Synergien zwischen Datenmodalitäten nutzt, um effizient einen großen, hochwertigen Korpus zu erstellen, der von Standarddiagrammen bis hin zu komplexen interaktiven Web-UIs und codegesteuerten Animationen reicht. Mithilfe dieses Toolkits erstellen wir JanusCode-800K, den bislang größten multimodalen Code-Korpus. Dieser ermöglicht das Training unserer Modelle JanusCoder und JanusCoderV, die eine visuell-programmatische Schnittstelle zur Code-Generierung aus textuellen Anweisungen, visuellen Eingaben oder einer Kombination aus beidem etablieren.
Unser vereinheitlichtes Modell stellt eine Abkehr von bestehenden Ansätzen dar, die spezialisierte Modelle für isolierte Aufgaben entwickeln. Umfangreiche Experimente sowohl zu textzentrierten als auch zu visuellzentrierten Coding-Aufgaben demonstrieren die überlegene Leistung der JanusCoder-Serie, wobei unsere Modelle im Maßstab von 7B bis 14B die Leistung kommerzieller Modelle erreichen oder sogar übertreffen. Darüber hinaus liefern umfassende Analysen wichtige Einblicke in die Harmonisierung von programmatischer Logik mit ihrem visuellen Ausdruck. Unser Code und unsere Checkpoints sind unter https://github.com/InternLM/JanusCoder verfügbar.
English
The scope of neural code intelligence is rapidly expanding beyond text-based
source code to encompass the rich visual outputs that programs generate. This
visual dimension is critical for advanced applications like flexible content
generation and precise, program-driven editing of visualizations. However,
progress has been impeded by the scarcity of high-quality multimodal code data,
a bottleneck stemming from challenges in synthesis and quality assessment. To
address these challenges, we make contributions from both a data and modeling
perspective. We first introduce a complete synthesis toolkit that leverages
reciprocal synergies between data modalities to efficiently produce a
large-scale, high-quality corpus spanning from standard charts to complex
interactive web UIs and code-driven animations. Leveraging this toolkit, we
construct JanusCode-800K, the largest multimodal code corpus to date. This
powers the training of our models, JanusCoder and JanusCoderV, which establish
a visual-programmatic interface for generating code from textual instructions,
visual inputs, or a combination of both. Our unified model is a departure from
existing approaches that build specialized models for isolated tasks. Extensive
experiments on both text-centric and vision-centric coding tasks demonstrate
the superior performance of the JanusCoder series, with our 7B to 14B scale
models approaching or even exceeding the performance of commercial models.
Furthermore, extensive analysis provides key insights into harmonizing
programmatic logic with its visual expression. Our code and checkpoints will
are available at https://github.com/InternLM/JanusCoder.