Warum haben Open-Source-LLMs Schwierigkeiten mit der Datenanalyse? Eine systematische empirische Studie
Why Do Open-Source LLMs Struggle with Data Analysis? A Systematic Empirical Study
June 24, 2025
Autoren: Yuqi Zhu, Yi Zhong, Jintian Zhang, Ziheng Zhang, Shuofei Qiao, Yujie Luo, Lun Du, Da Zheng, Huajun Chen, Ningyu Zhang
cs.AI
Zusammenfassung
Große Sprachmodelle (LLMs) bergen Potenzial in der Automatisierung von Datenanalysen, doch Open-Source-Modelle stoßen in solchen Denk-intensiven Szenarien auf erhebliche Einschränkungen. In dieser Arbeit untersuchen wir Strategien, um die Datenanalysefähigkeiten von Open-Source-LLMs zu verbessern. Durch die Zusammenstellung eines Ausgangsdatensatzes mit vielfältigen, realistischen Szenarien bewerten wir Modelle in drei Dimensionen: Datenverständnis, Codegenerierung und strategische Planung. Unsere Analyse zeigt drei zentrale Erkenntnisse: (1) Die Qualität der strategischen Planung ist der primäre Leistungsindikator für Modelle; (2) Interaktionsdesign und Aufgabenkomplexität beeinflussen die Denkfähigkeiten maßgeblich; (3) Datenqualität hat einen größeren Einfluss auf die Leistung als Diversität. Wir nutzen diese Erkenntnisse, um eine Methode zur Datensynthese zu entwickeln, die signifikante Verbesserungen in den analytischen Denkfähigkeiten von Open-Source-LLMs demonstriert.
English
Large Language Models (LLMs) hold promise in automating data analysis tasks,
yet open-source models face significant limitations in these kinds of
reasoning-intensive scenarios. In this work, we investigate strategies to
enhance the data analysis capabilities of open-source LLMs. By curating a seed
dataset of diverse, realistic scenarios, we evaluate models across three
dimensions: data understanding, code generation, and strategic planning. Our
analysis reveals three key findings: (1) Strategic planning quality serves as
the primary determinant of model performance; (2) Interaction design and task
complexity significantly influence reasoning capabilities; (3) Data quality
demonstrates a greater impact than diversity in achieving optimal performance.
We leverage these insights to develop a data synthesis methodology,
demonstrating significant improvements in open-source LLMs' analytical
reasoning capabilities.