DSBench: Wie weit sind Datenwissenschaftsagenten davon entfernt, Datenwissenschaftsexperten zu werden?DSBench: How Far Are Data Science Agents to Becoming Data Science
Experts?
Große Sprachmodelle (LLMs) und große Vision-Sprachmodelle (LVLMs) haben beeindruckende Sprach-/Bild-Argumentationsfähigkeiten gezeigt, die den aktuellen Trend der Entwicklung von Agenten für gezielte Anwendungen wie Einkaufsassistenten oder KI-Softwareingenieure ausgelöst haben. In letzter Zeit wurden viele Benchmarks im Bereich der Datenwissenschaft vorgeschlagen, um ihre Leistung im Bereich der Datenwissenschaft zu untersuchen. Allerdings reichen bestehende Benchmarks im Bereich der Datenwissenschaft im Vergleich zu realen Datenwissenschaftsanwendungen aufgrund ihrer vereinfachten Einstellungen noch nicht aus. Um diese Lücke zu schließen, stellen wir DSBench vor, einen umfassenden Benchmark, der entwickelt wurde, um Datenwissenschaftsagenten mit realistischen Aufgaben zu bewerten. Dieser Benchmark umfasst 466 Datenanalyseaufgaben und 74 Datenmodellierungsaufgaben, die aus Eloquence- und Kaggle-Wettbewerben stammen. DSBench bietet eine realistische Umgebung, indem es lange Kontexte, multimodale Aufgabenhintergründe, Argumentation mit großen Datendateien und mehrtabellarische Strukturen sowie die Durchführung von End-to-End-Datenmodellierungsaufgaben einschließt. Unsere Evaluation der modernsten LLMs, LVLMs und Agenten zeigt, dass sie bei den meisten Aufgaben Schwierigkeiten haben, wobei der beste Agent nur 34,12% der Datenanalyseaufgaben löst und eine Relative Performance Gap (RPG) von 34,74% erreicht. Diese Ergebnisse unterstreichen die Notwendigkeit weiterer Fortschritte bei der Entwicklung praktischerer, intelligenterer und autonomer Datenwissenschaftsagenten.