¿Por qué los LLM de código abierto tienen dificultades con el análisis de datos? Un estudio empírico sistemático
Why Do Open-Source LLMs Struggle with Data Analysis? A Systematic Empirical Study
June 24, 2025
Autores: Yuqi Zhu, Yi Zhong, Jintian Zhang, Ziheng Zhang, Shuofei Qiao, Yujie Luo, Lun Du, Da Zheng, Huajun Chen, Ningyu Zhang
cs.AI
Resumen
Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) muestran potencial para automatizar tareas de análisis de datos, aunque los modelos de código abierto enfrentan limitaciones significativas en escenarios que requieren un razonamiento intensivo. En este trabajo, investigamos estrategias para mejorar las capacidades de análisis de datos de los LLMs de código abierto. Mediante la creación de un conjunto de datos inicial que abarca escenarios diversos y realistas, evaluamos los modelos en tres dimensiones: comprensión de datos, generación de código y planificación estratégica. Nuestro análisis revela tres hallazgos clave: (1) La calidad de la planificación estratégica es el principal determinante del rendimiento del modelo; (2) El diseño de la interacción y la complejidad de la tarea influyen significativamente en las capacidades de razonamiento; (3) La calidad de los datos tiene un impacto mayor que la diversidad para alcanzar un rendimiento óptimo. Aprovechamos estas conclusiones para desarrollar una metodología de síntesis de datos, demostrando mejoras significativas en las capacidades de razonamiento analítico de los LLMs de código abierto.
English
Large Language Models (LLMs) hold promise in automating data analysis tasks,
yet open-source models face significant limitations in these kinds of
reasoning-intensive scenarios. In this work, we investigate strategies to
enhance the data analysis capabilities of open-source LLMs. By curating a seed
dataset of diverse, realistic scenarios, we evaluate models across three
dimensions: data understanding, code generation, and strategic planning. Our
analysis reveals three key findings: (1) Strategic planning quality serves as
the primary determinant of model performance; (2) Interaction design and task
complexity significantly influence reasoning capabilities; (3) Data quality
demonstrates a greater impact than diversity in achieving optimal performance.
We leverage these insights to develop a data synthesis methodology,
demonstrating significant improvements in open-source LLMs' analytical
reasoning capabilities.