RealChart2Code:実データとマルチタスク評価によるチャートからコード生成の進展
RealChart2Code: Advancing Chart-to-Code Generation with Real Data and Multi-Task Evaluation
March 26, 2026
著者: Jiajun Zhang, Yuying Li, Zhixun Li, Xingyu Guo, Jingzhuo Wu, Leqi Zheng, Yiran Yang, Jianke Zhang, Qingbin Li, Shannan Yan, Zhetong Li, Changguo Jia, Junfei Wu, Zilei Wang, Qiang Liu, Liang Wang
cs.AI
要旨
ビジョン言語モデル(VLM)は、様々な領域におけるコード生成において印象的な能力を示してきました。しかし、実世界のデータから複雑なマルチパネル可視化を再現する能力については、ほとんど評価されていません。この課題を解決するため、我々は\texttt{RealChart2Code}を提案します。これは、実データセットに基づく2,800以上のインスタンスから構成される新たな大規模ベンチマークであり、明確な分析的意図を持つタスクを特徴としています。重要な点として、大規模な生データからのチャート生成を体系的に評価し、マルチターン対話設定における反復的コード改良を評価する初のベンチマークです。RealChart2Codeを用いた14の主要なVLMに対する包括的評価により、より単純なベンチマークと比較して性能が大幅に低下することが明らかになり、複雑なプロット構造や実データへの対応の困難さが浮き彫りになりました。我々の分析により、プロプライエタリモデルとオープンウェイトモデル間の大きな性能差が明らかになり、最先端のVLMでさえ複雑なマルチパネルチャートを正確に再現できないことが確認されました。これらの知見は、VLMの現状の限界について貴重な洞察を提供し、将来の研究方向性を示すものです。ベンチマークとコードはhttps://github.com/Speakn0w/RealChart2Codeで公開しています。
English
Vision-Language Models (VLMs) have demonstrated impressive capabilities in code generation across various domains. However, their ability to replicate complex, multi-panel visualizations from real-world data remains largely unassessed. To address this gap, we introduce \texttt{RealChart2Code}, a new large-scale benchmark with over 2,800 instances grounded in authentic datasets and featuring tasks with clear analytical intent. Crucially, it is the first benchmark to systematically evaluate chart generation from large-scale raw data and assess iterative code refinement in a multi-turn conversational setting. Our comprehensive evaluation of 14 leading VLMs on RealChart2Code reveals significant performance degradation compared to simpler benchmarks, highlighting their struggles with complex plot structures and authentic data. Our analysis uncovers a substantial performance gap between proprietary and open-weight models and confirms that even state-of-the-art VLMs often fail to accurately replicate intricate, multi-panel charts. These findings provide valuable insights into the current limitations of VLMs and guide future research directions. We release the benchmark and code at https://github.com/Speakn0w/RealChart2Code.