DSBench: データサイエンスエージェントがデータサイエンスの専門家になるまでの道のりDSBench: How Far Are Data Science Agents to Becoming Data Science
Experts?
大規模言語モデル(LLMs)および大規模ビジョン言語モデル(LVLMs)は、印象的な言語/ビジョン推論能力を示し、ショッピングアシスタントやAIソフトウェアエンジニアなどの特定のアプリケーション向けエージェントの構築という最近のトレンドを引き起こしました。最近、多くのデータサイエンスベンチマークが提案され、データサイエンス分野におけるそれらのパフォーマンスを調査しています。しかし、既存のデータサイエンスベンチマークは、その単純化された設定のため、実世界のデータサイエンスアプリケーションと比較してまだ不十分です。このギャップを埋めるために、私たちはDSBenchを紹介します。これは、現実的なタスクでデータサイエンスエージェントを評価するために設計された包括的なベンチマークです。このベンチマークには、EloquenceとKaggleのコンペティションから収集された466のデータ分析タスクと74のデータモデリングタスクが含まれています。DSBenchは、長いコンテキスト、マルチモーダルなタスク背景、大規模データファイルやマルチテーブル構造での推論、エンドツーエンドのデータモデリングタスクを含むことにより、実世界に近い設定を提供しています。最先端のLLMs、LVLMs、およびエージェントの評価結果は、それらがほとんどのタスクに苦戦しており、最も優れたエージェントでデータ分析タスクの34.12%しか解決できず、34.74%の相対パフォーマンスギャップ(RPG)を達成していることを示しています。これらの結果は、より実用的で知的、自律的なデータサイエンスエージェントの開発にさらなる進歩が必要であることを強調しています。