¿Por qué los LLM de código abierto tienen dificultades con el análisis de datos? Un estudio empírico sistemático

Resumen

Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) muestran potencial para automatizar tareas de análisis de datos, aunque los modelos de código abierto enfrentan limitaciones significativas en escenarios que requieren un razonamiento intensivo. En este trabajo, investigamos estrategias para mejorar las capacidades de análisis de datos de los LLMs de código abierto. Mediante la creación de un conjunto de datos inicial que abarca escenarios diversos y realistas, evaluamos los modelos en tres dimensiones: comprensión de datos, generación de código y planificación estratégica. Nuestro análisis revela tres hallazgos clave: (1) La calidad de la planificación estratégica es el principal determinante del rendimiento del modelo; (2) El diseño de la interacción y la complejidad de la tarea influyen significativamente en las capacidades de razonamiento; (3) La calidad de los datos tiene un impacto mayor que la diversidad para alcanzar un rendimiento óptimo. Aprovechamos estas conclusiones para desarrollar una metodología de síntesis de datos, demostrando mejoras significativas en las capacidades de razonamiento analítico de los LLMs de código abierto.

English

Large Language Models (LLMs) hold promise in automating data analysis tasks, yet open-source models face significant limitations in these kinds of reasoning-intensive scenarios. In this work, we investigate strategies to enhance the data analysis capabilities of open-source LLMs. By curating a seed dataset of diverse, realistic scenarios, we evaluate models across three dimensions: data understanding, code generation, and strategic planning. Our analysis reveals three key findings: (1) Strategic planning quality serves as the primary determinant of model performance; (2) Interaction design and task complexity significantly influence reasoning capabilities; (3) Data quality demonstrates a greater impact than diversity in achieving optimal performance. We leverage these insights to develop a data synthesis methodology, demonstrating significant improvements in open-source LLMs' analytical reasoning capabilities.

¿Por qué los LLM de código abierto tienen dificultades con el análisis de datos? Un estudio empírico sistemático

Why Do Open-Source LLMs Struggle with Data Analysis? A Systematic Empirical Study

Resumen

Support