Por Que os LLMs de Código Aberto Têm Dificuldades com Análise de Dados? Um Estudo Empírico Sistemático
Why Do Open-Source LLMs Struggle with Data Analysis? A Systematic Empirical Study
June 24, 2025
Autores: Yuqi Zhu, Yi Zhong, Jintian Zhang, Ziheng Zhang, Shuofei Qiao, Yujie Luo, Lun Du, Da Zheng, Huajun Chen, Ningyu Zhang
cs.AI
Resumo
Modelos de Linguagem de Grande Escala (LLMs) mostram potencial na automação de tarefas de análise de dados, mas os modelos de código aberto enfrentam limitações significativas nesses cenários que exigem raciocínio intensivo. Neste trabalho, investigamos estratégias para aprimorar as capacidades de análise de dados de LLMs de código aberto. Ao criar um conjunto de dados inicial com cenários diversos e realistas, avaliamos os modelos em três dimensões: compreensão de dados, geração de código e planejamento estratégico. Nossa análise revela três descobertas principais: (1) A qualidade do planejamento estratégico é o principal determinante do desempenho do modelo; (2) O design de interação e a complexidade da tarefa influenciam significativamente as capacidades de raciocínio; (3) A qualidade dos dados tem um impacto maior do que a diversidade para alcançar o desempenho ideal. Utilizamos essas percepções para desenvolver uma metodologia de síntese de dados, demonstrando melhorias significativas nas capacidades de raciocínio analítico de LLMs de código aberto.
English
Large Language Models (LLMs) hold promise in automating data analysis tasks,
yet open-source models face significant limitations in these kinds of
reasoning-intensive scenarios. In this work, we investigate strategies to
enhance the data analysis capabilities of open-source LLMs. By curating a seed
dataset of diverse, realistic scenarios, we evaluate models across three
dimensions: data understanding, code generation, and strategic planning. Our
analysis reveals three key findings: (1) Strategic planning quality serves as
the primary determinant of model performance; (2) Interaction design and task
complexity significantly influence reasoning capabilities; (3) Data quality
demonstrates a greater impact than diversity in achieving optimal performance.
We leverage these insights to develop a data synthesis methodology,
demonstrating significant improvements in open-source LLMs' analytical
reasoning capabilities.