RealChart2Code: 실제 데이터와 다중 작업 평가를 통한 차트-코드 생성 기술 발전
RealChart2Code: Advancing Chart-to-Code Generation with Real Data and Multi-Task Evaluation
March 26, 2026
저자: Jiajun Zhang, Yuying Li, Zhixun Li, Xingyu Guo, Jingzhuo Wu, Leqi Zheng, Yiran Yang, Jianke Zhang, Qingbin Li, Shannan Yan, Zhetong Li, Changguo Jia, Junfei Wu, Zilei Wang, Qiang Liu, Liang Wang
cs.AI
초록
비전-언어 모델(VLM)은 다양한 영역에서 인상적인 코드 생성 능력을 보여주고 있습니다. 그러나 실제 데이터를 기반으로 한 복잡한 다중 패널 시각화를 재현하는 능력은 대체로 평가되지 않은 상태입니다. 이러한 격차를 해결하기 위해 우리는 2,800개 이상의 인스턴스로 구성된 새로운 대규모 벤치마크인 \texttt{RealChart2Code}를 소개합니다. 이 벤치마크는 실제 데이터셋에 기반을 두고 명확한 분석 의도를 가진 과제를 특징으로 합니다. 중요한 것은, 이 벤치마크가 대규모 원시 데이터로부터 차트 생성을 체계적으로 평가하고 다중 턴 대화 환경에서의 반복적 코드 정제 능력을 평가하는 최초의 벤치마크라는 점입니다. RealChart2Code를 통해 14개의 주요 VLM을 종합적으로 평가한 결과, 단순한 벤치마크에 비해 성능이 현저히 저하되는 것을 확인했으며, 이는 복잡한 플롯 구조와 실제 데이터를 다루는 데 어려움을 겪고 있음을 강조합니다. 우리의 분석은 사유 모델과 오픈 웨이트 모델 간의 상당한 성능 격차를 밝혀냈으며, 최첨단 VLM조차도 정교한 다중 패널 차트를 정확하게 재현하지 못하는 경우가 많다는 사실을 확인시켜 줍니다. 이러한 발견은 VLM의 현재 한계에 대한 귀중한 통찰을 제공하며 향후 연구 방향을 제시합니다. 우리는 벤치마크와 코드를 https://github.com/Speakn0w/RealChart2Code에서 공개합니다.
English
Vision-Language Models (VLMs) have demonstrated impressive capabilities in code generation across various domains. However, their ability to replicate complex, multi-panel visualizations from real-world data remains largely unassessed. To address this gap, we introduce \texttt{RealChart2Code}, a new large-scale benchmark with over 2,800 instances grounded in authentic datasets and featuring tasks with clear analytical intent. Crucially, it is the first benchmark to systematically evaluate chart generation from large-scale raw data and assess iterative code refinement in a multi-turn conversational setting. Our comprehensive evaluation of 14 leading VLMs on RealChart2Code reveals significant performance degradation compared to simpler benchmarks, highlighting their struggles with complex plot structures and authentic data. Our analysis uncovers a substantial performance gap between proprietary and open-weight models and confirms that even state-of-the-art VLMs often fail to accurately replicate intricate, multi-panel charts. These findings provide valuable insights into the current limitations of VLMs and guide future research directions. We release the benchmark and code at https://github.com/Speakn0w/RealChart2Code.