Pourquoi les LLM open source peinent-ils dans l'analyse de données ? Une étude empirique systématique
Why Do Open-Source LLMs Struggle with Data Analysis? A Systematic Empirical Study
June 24, 2025
papers.authors: Yuqi Zhu, Yi Zhong, Jintian Zhang, Ziheng Zhang, Shuofei Qiao, Yujie Luo, Lun Du, Da Zheng, Huajun Chen, Ningyu Zhang
cs.AI
papers.abstract
Les grands modèles de langage (LLMs) offrent des perspectives prometteuses pour automatiser les tâches d'analyse de données, mais les modèles open source rencontrent des limitations significatives dans ces scénarios exigeants en raisonnement. Dans ce travail, nous explorons des stratégies pour améliorer les capacités d'analyse de données des LLMs open source. En constituant un jeu de données initial de scénarios diversifiés et réalistes, nous évaluons les modèles selon trois dimensions : compréhension des données, génération de code et planification stratégique. Notre analyse révèle trois conclusions clés : (1) La qualité de la planification stratégique est le principal déterminant de la performance des modèles ; (2) La conception des interactions et la complexité des tâches influencent significativement les capacités de raisonnement ; (3) La qualité des données a un impact plus important que la diversité pour atteindre une performance optimale. Nous exploitons ces insights pour développer une méthodologie de synthèse de données, démontrant des améliorations significatives dans les capacités de raisonnement analytique des LLMs open source.
English
Large Language Models (LLMs) hold promise in automating data analysis tasks,
yet open-source models face significant limitations in these kinds of
reasoning-intensive scenarios. In this work, we investigate strategies to
enhance the data analysis capabilities of open-source LLMs. By curating a seed
dataset of diverse, realistic scenarios, we evaluate models across three
dimensions: data understanding, code generation, and strategic planning. Our
analysis reveals three key findings: (1) Strategic planning quality serves as
the primary determinant of model performance; (2) Interaction design and task
complexity significantly influence reasoning capabilities; (3) Data quality
demonstrates a greater impact than diversity in achieving optimal performance.
We leverage these insights to develop a data synthesis methodology,
demonstrating significant improvements in open-source LLMs' analytical
reasoning capabilities.