JanusCoder: Auf dem Weg zu einer grundlegenden visuell-programmatischen Schnittstelle für Code-Intelligenz

papers.abstract

Der Anwendungsbereich neuronaler Code-Intelligenz erweitert sich rapide über textbasierten Quellcode hinaus und umfasst zunehmend die visuellen Ausgaben, die Programme generieren. Diese visuelle Dimension ist entscheidend für fortgeschrittene Anwendungen wie flexible Inhaltsgenerierung und präzise, programmgesteuerte Bearbeitung von Visualisierungen. Der Fortschritt wurde jedoch durch den Mangel an hochwertigen multimodalen Codedaten behindert, ein Engpass, der auf Herausforderungen bei der Synthese und Qualitätsbewertung zurückzuführen ist. Um diese Herausforderungen zu bewältigen, leisten wir Beiträge aus sowohl einer Daten- als auch einer Modellierungsperspektive. Wir stellen zunächst ein vollständiges Synthese-Toolkit vor, das reziproke Synergien zwischen Datenmodalitäten nutzt, um effizient einen großen, hochwertigen Korpus zu erstellen, der von Standarddiagrammen bis hin zu komplexen interaktiven Web-UIs und codegesteuerten Animationen reicht. Mithilfe dieses Toolkits erstellen wir JanusCode-800K, den bislang größten multimodalen Code-Korpus. Dieser ermöglicht das Training unserer Modelle JanusCoder und JanusCoderV, die eine visuell-programmatische Schnittstelle zur Code-Generierung aus textuellen Anweisungen, visuellen Eingaben oder einer Kombination aus beidem etablieren. Unser vereinheitlichtes Modell stellt eine Abkehr von bestehenden Ansätzen dar, die spezialisierte Modelle für isolierte Aufgaben entwickeln. Umfangreiche Experimente sowohl zu textzentrierten als auch zu visuellzentrierten Coding-Aufgaben demonstrieren die überlegene Leistung der JanusCoder-Serie, wobei unsere Modelle im Maßstab von 7B bis 14B die Leistung kommerzieller Modelle erreichen oder sogar übertreffen. Darüber hinaus liefern umfassende Analysen wichtige Einblicke in die Harmonisierung von programmatischer Logik mit ihrem visuellen Ausdruck. Unser Code und unsere Checkpoints sind unter https://github.com/InternLM/JanusCoder verfügbar.

English

The scope of neural code intelligence is rapidly expanding beyond text-based source code to encompass the rich visual outputs that programs generate. This visual dimension is critical for advanced applications like flexible content generation and precise, program-driven editing of visualizations. However, progress has been impeded by the scarcity of high-quality multimodal code data, a bottleneck stemming from challenges in synthesis and quality assessment. To address these challenges, we make contributions from both a data and modeling perspective. We first introduce a complete synthesis toolkit that leverages reciprocal synergies between data modalities to efficiently produce a large-scale, high-quality corpus spanning from standard charts to complex interactive web UIs and code-driven animations. Leveraging this toolkit, we construct JanusCode-800K, the largest multimodal code corpus to date. This powers the training of our models, JanusCoder and JanusCoderV, which establish a visual-programmatic interface for generating code from textual instructions, visual inputs, or a combination of both. Our unified model is a departure from existing approaches that build specialized models for isolated tasks. Extensive experiments on both text-centric and vision-centric coding tasks demonstrate the superior performance of the JanusCoder series, with our 7B to 14B scale models approaching or even exceeding the performance of commercial models. Furthermore, extensive analysis provides key insights into harmonizing programmatic logic with its visual expression. Our code and checkpoints will are available at https://github.com/InternLM/JanusCoder.

JanusCoder: Auf dem Weg zu einer grundlegenden visuell-programmatischen Schnittstelle für Code-Intelligenz

JanusCoder: Towards a Foundational Visual-Programmatic Interface for Code Intelligence

papers.abstract

Support