VisCoder: Fine-tuning van LLM's voor het genereren van uitvoerbare Python-visualisatiecode

Samenvatting

Grote taalmodellen (LLMs) hebben vaak moeite met visualisatietaken zoals het plotten van diagrammen en grafieken, waarbij succes afhangt van zowel de correctheid van de code als de visuele semantiek. Bestaande instructie-afstemmingsdatasets missen uitvoeringsgebaseerd toezicht en bieden beperkte ondersteuning voor iteratieve codecorrectie, wat resulteert in kwetsbare en onbetrouwbare plotgeneratie. Wij presenteren VisCode-200K, een grootschalige instructie-afstemmingsdataset voor Python-gebaseerde visualisatie en zelfcorrectie. Deze bevat meer dan 200K voorbeelden uit twee bronnen: (1) gevalideerde plotcode uit open-source repositories, gekoppeld aan natuurlijke taal-instructies en gerenderde plots; en (2) 45K multi-turn correctiedialogen van Code-Feedback, waardoor modellen foutieve code kunnen herzien met behulp van runtime-feedback. We fine-tunen Qwen2.5-Coder-Instruct op VisCode-200K om VisCoder te creëren en evalueren het op PandasPlotBench. VisCoder presteert aanzienlijk beter dan sterke open-source baselines en benadert de prestaties van propriëtaire modellen zoals GPT-4o-mini. We nemen verder een zelfdebug-evaluatieprotocol over om iteratieve reparatie te beoordelen, wat de voordelen aantoont van feedback-gestuurd leren voor het genereren van uitvoerbare, visueel accurate code.

English

Large language models (LLMs) often struggle with visualization tasks like plotting diagrams, charts, where success depends on both code correctness and visual semantics. Existing instruction-tuning datasets lack execution-grounded supervision and offer limited support for iterative code correction, resulting in fragile and unreliable plot generation. We present VisCode-200K, a large-scale instruction tuning dataset for Python-based visualization and self-correction. It contains over 200K examples from two sources: (1) validated plotting code from open-source repositories, paired with natural language instructions and rendered plots; and (2) 45K multi-turn correction dialogues from Code-Feedback, enabling models to revise faulty code using runtime feedback. We fine-tune Qwen2.5-Coder-Instruct on VisCode-200K to create VisCoder, and evaluate it on PandasPlotBench. VisCoder significantly outperforms strong open-source baselines and approaches the performance of proprietary models like GPT-4o-mini. We further adopt a self-debug evaluation protocol to assess iterative repair, demonstrating the benefits of feedback-driven learning for executable, visually accurate code generation.

VisCoder: Fine-tuning van LLM's voor het genereren van uitvoerbare Python-visualisatiecode

VisCoder: Fine-Tuning LLMs for Executable Python Visualization Code Generation

Samenvatting

Support