RealChart2Code: Avançando na Geração de Código a partir de Gráficos com Dados Reais e Avaliação Multitarefa

Resumo

Os Modelos de Visão-Linguagem (VLMs) demonstraram capacidades impressionantes na geração de código em vários domínios. No entanto, a sua capacidade de replicar visualizações complexas e multipainel a partir de dados do mundo real permanece amplamente não avaliada. Para colmatar esta lacuna, introduzimos o \texttt{RealChart2Code}, um novo benchmark de grande escala com mais de 2.800 instâncias baseadas em conjuntos de dados autênticos e que apresenta tarefas com uma intenção analítica clara. Crucialmente, é o primeiro benchmark a avaliar sistematicamente a geração de gráficos a partir de dados brutos em larga escala e a avaliar o refinamento iterativo de código num contexto conversacional multiturno. A nossa avaliação abrangente de 14 VLMs líderes no RealChart2Code revela uma degradação significativa de desempenho em comparação com benchmarks mais simples, destacando as suas dificuldades com estruturas de gráficos complexas e dados autênticos. A nossa análise revela uma lacuna substancial de desempenho entre modelos proprietários e de pesos abertos e confirma que mesmo os VLMs mais avançados frequentemente falham em replicar com precisão gráficos intrincados e multipainel. Estas descobertas fornecem informações valiosas sobre as limitações atuais dos VLMs e orientam futuras direções de investigação. Disponibilizamos o benchmark e o código em https://github.com/Speakn0w/RealChart2Code.

English

Vision-Language Models (VLMs) have demonstrated impressive capabilities in code generation across various domains. However, their ability to replicate complex, multi-panel visualizations from real-world data remains largely unassessed. To address this gap, we introduce \texttt{RealChart2Code}, a new large-scale benchmark with over 2,800 instances grounded in authentic datasets and featuring tasks with clear analytical intent. Crucially, it is the first benchmark to systematically evaluate chart generation from large-scale raw data and assess iterative code refinement in a multi-turn conversational setting. Our comprehensive evaluation of 14 leading VLMs on RealChart2Code reveals significant performance degradation compared to simpler benchmarks, highlighting their struggles with complex plot structures and authentic data. Our analysis uncovers a substantial performance gap between proprietary and open-weight models and confirms that even state-of-the-art VLMs often fail to accurately replicate intricate, multi-panel charts. These findings provide valuable insights into the current limitations of VLMs and guide future research directions. We release the benchmark and code at https://github.com/Speakn0w/RealChart2Code.