Waarom worstelen open-source LLM's met data-analyse? Een systematisch empirisch onderzoek
Why Do Open-Source LLMs Struggle with Data Analysis? A Systematic Empirical Study
June 24, 2025
Auteurs: Yuqi Zhu, Yi Zhong, Jintian Zhang, Ziheng Zhang, Shuofei Qiao, Yujie Luo, Lun Du, Da Zheng, Huajun Chen, Ningyu Zhang
cs.AI
Samenvatting
Grote Taalmodellen (LLMs) bieden veelbelovende mogelijkheden voor het automatiseren van data-analyse taken, maar open-source modellen kampen met aanzienlijke beperkingen in dit soort redeneringsintensieve scenario's. In dit onderzoek verkennen we strategieën om de data-analyse capaciteiten van open-source LLMs te verbeteren. Door een startdataset samen te stellen van diverse, realistische scenario's, evalueren we modellen op drie dimensies: data-begrip, codegeneratie en strategische planning. Onze analyse onthult drie belangrijke bevindingen: (1) De kwaliteit van strategische planning is de belangrijkste bepalende factor voor modelprestaties; (2) Interactieontwerp en taakcomplexiteit hebben een aanzienlijke invloed op redeneervaardigheden; (3) Data-kwaliteit heeft een grotere impact dan diversiteit bij het bereiken van optimale prestaties. We benutten deze inzichten om een data-synthesemethodologie te ontwikkelen, wat leidt tot aanzienlijke verbeteringen in de analytische redeneervaardigheden van open-source LLMs.
English
Large Language Models (LLMs) hold promise in automating data analysis tasks,
yet open-source models face significant limitations in these kinds of
reasoning-intensive scenarios. In this work, we investigate strategies to
enhance the data analysis capabilities of open-source LLMs. By curating a seed
dataset of diverse, realistic scenarios, we evaluate models across three
dimensions: data understanding, code generation, and strategic planning. Our
analysis reveals three key findings: (1) Strategic planning quality serves as
the primary determinant of model performance; (2) Interaction design and task
complexity significantly influence reasoning capabilities; (3) Data quality
demonstrates a greater impact than diversity in achieving optimal performance.
We leverage these insights to develop a data synthesis methodology,
demonstrating significant improvements in open-source LLMs' analytical
reasoning capabilities.