Почему открытые LLM испытывают трудности с анализом данных? Систематическое эмпирическое исследование
Why Do Open-Source LLMs Struggle with Data Analysis? A Systematic Empirical Study
June 24, 2025
Авторы: Yuqi Zhu, Yi Zhong, Jintian Zhang, Ziheng Zhang, Shuofei Qiao, Yujie Luo, Lun Du, Da Zheng, Huajun Chen, Ningyu Zhang
cs.AI
Аннотация
Крупные языковые модели (LLM) демонстрируют потенциал в автоматизации задач анализа данных, однако модели с открытым исходным кодом сталкиваются с существенными ограничениями в сценариях, требующих интенсивного рассуждения. В данной работе мы исследуем стратегии для улучшения возможностей анализа данных у открытых LLM. Создав базовый набор данных, включающий разнообразные реалистичные сценарии, мы оцениваем модели по трем направлениям: понимание данных, генерация кода и стратегическое планирование. Наш анализ выявил три ключевых результата: (1) Качество стратегического планирования является основным фактором, определяющим производительность модели; (2) Дизайн взаимодействия и сложность задачи существенно влияют на способности к рассуждению; (3) Качество данных оказывает большее влияние, чем их разнообразие, для достижения оптимальной производительности. Используя эти выводы, мы разработали методологию синтеза данных, которая демонстрирует значительное улучшение аналитических способностей открытых LLM.
English
Large Language Models (LLMs) hold promise in automating data analysis tasks,
yet open-source models face significant limitations in these kinds of
reasoning-intensive scenarios. In this work, we investigate strategies to
enhance the data analysis capabilities of open-source LLMs. By curating a seed
dataset of diverse, realistic scenarios, we evaluate models across three
dimensions: data understanding, code generation, and strategic planning. Our
analysis reveals three key findings: (1) Strategic planning quality serves as
the primary determinant of model performance; (2) Interaction design and task
complexity significantly influence reasoning capabilities; (3) Data quality
demonstrates a greater impact than diversity in achieving optimal performance.
We leverage these insights to develop a data synthesis methodology,
demonstrating significant improvements in open-source LLMs' analytical
reasoning capabilities.