DSBench: Насколько далеки агенты по науке о данных от становления экспертами по науке о данных?DSBench: How Far Are Data Science Agents to Becoming Data Science
Experts?
Большие языковые модели (LLM) и большие модели видео-языкового восприятия (LVLM) продемонстрировали впечатляющие способности к языковому/визуальному рассуждению, зажигая недавний тренд создания агентов для целевых приложений, таких как помощники по покупкам или искусственные инженеры-программисты. Недавно было предложено много бенчмарков в области науки о данных для изучения их производительности в области науки о данных. Однако существующие бенчмарки в области науки о данных все еще уступают по сравнению с реальными приложениями в области науки о данных из-за упрощенных настроек. Для устранения этого разрыва мы представляем DSBench, комплексный бенчмарк, разработанный для оценки агентов по науке о данных с реалистичными задачами. Этот бенчмарк включает в себя 466 задач анализа данных и 74 задачи моделирования данных, взятые из соревнований Eloquence и Kaggle. DSBench предлагает реалистичную среду, охватывая длинные контексты, мультимодальные фоны задач, рассуждения с большими файлами данных и многотабличные структуры, а также выполнение задач моделирования данных от начала до конца. Наша оценка передовых LLM, LVLM и агентов показывает, что они испытывают трудности с большинством задач, лучший агент решает лишь 34,12% задач анализа данных и достигает 34,74% Относительного разрыва производительности (RPG). Эти результаты подчеркивают необходимость дальнейших усовершенствований в разработке более практичных, интеллектуальных и автономных агентов по науке о данных.