ChatPaper.aiChatPaper

大規模言語モデルが構造化された推論を組み合わせ、Kaggleのグランドマスターレベルを達成する

Large Language Models Orchestrating Structured Reasoning Achieve Kaggle Grandmaster Level

November 5, 2024
著者: Antoine Grosnit, Alexandre Maraval, James Doran, Giuseppe Paolo, Albert Thomas, Refinath Shahul Hameed Nabeezath Beevi, Jonas Gonzalez, Khyati Khandelwal, Ignacio Iacobacci, Abdelhakim Benechehab, Hamza Cherkaoui, Youssef Attia El-Hili, Kun Shao, Jianye Hao, Jun Yao, Balazs Kegl, Haitham Bou-Ammar, Jun Wang
cs.AI

要旨

Agent K v1.0を紹介します。これはエンドツーエンドの自律データサイエンスエージェントであり、多様なデータサイエンスタスクを自動化し、最適化し、一般化するために設計されています。完全に自動化されたAgent K v1.0は、経験から学習することでデータサイエンスのライフサイクル全体を管理します。高度に柔軟な構造化された推論フレームワークを活用し、ネストされた構造でメモリを動的に処理することで、蓄積された経験から学習し、複雑な推論タスクを処理します。Agent K v1.0は、環境からの報酬に基づいて将来の意思決定を導くために、長期および短期メモリを最適化し、主要情報を選択的に保存および取得します。この反復的なアプローチにより、微調整やバックプロパゲーションなしで意思決定を洗練し、経験的学習を通じて持続的な改善を実現します。私たちは、Kaggleコンペティションをケーススタディとして使用して、当社のエージェントの能力を評価します。完全に自動化されたプロトコルに従い、Agent K v1.0は、ハイパーパラメータの調整や特徴エンジニアリングのためにベイズ最適化を使用し、複雑で多様なデータサイエンスタスクにシステマティックに対処します。新しい評価フレームワークは、Agent K v1.0のエンドツーエンドの能力を厳密に評価し、KaggleコンペティションのURLから提出物を生成して送信する能力を示します。結果は、Agent K v1.0が表形式、コンピュータビジョン、NLP、および多様なドメインにわたるタスクで92.5\%の成功率を達成し、5,856人の人間のKaggle競技者と比較して、Elo-MMRスコアを計算することで、トップ38\%にランクインしていることを示しています。これは、全体的なスキルレベルがエキスパートレベルのユーザーと同等であることを示しています。Agent K v1.0のElo-MMRスコアは、人間のグランドマスターが達成したスコアの第1四分位数と第3四分位数の間に位置しています。さらに、私たちの結果は、Agent K v1.0がKaggleグランドマスターと同等のパフォーマンスレベルに達しており、Kaggleの進行システムで定義される通り、6つのゴールド、3つのシルバー、7つのブロンズメダルを獲得していることを示しています。
English
We introduce Agent K v1.0, an end-to-end autonomous data science agent designed to automate, optimise, and generalise across diverse data science tasks. Fully automated, Agent K v1.0 manages the entire data science life cycle by learning from experience. It leverages a highly flexible structured reasoning framework to enable it to dynamically process memory in a nested structure, effectively learning from accumulated experience stored to handle complex reasoning tasks. It optimises long- and short-term memory by selectively storing and retrieving key information, guiding future decisions based on environmental rewards. This iterative approach allows it to refine decisions without fine-tuning or backpropagation, achieving continuous improvement through experiential learning. We evaluate our agent's apabilities using Kaggle competitions as a case study. Following a fully automated protocol, Agent K v1.0 systematically addresses complex and multimodal data science tasks, employing Bayesian optimisation for hyperparameter tuning and feature engineering. Our new evaluation framework rigorously assesses Agent K v1.0's end-to-end capabilities to generate and send submissions starting from a Kaggle competition URL. Results demonstrate that Agent K v1.0 achieves a 92.5\% success rate across tasks, spanning tabular, computer vision, NLP, and multimodal domains. When benchmarking against 5,856 human Kaggle competitors by calculating Elo-MMR scores for each, Agent K v1.0 ranks in the top 38\%, demonstrating an overall skill level comparable to Expert-level users. Notably, its Elo-MMR score falls between the first and third quartiles of scores achieved by human Grandmasters. Furthermore, our results indicate that Agent K v1.0 has reached a performance level equivalent to Kaggle Grandmaster, with a record of 6 gold, 3 silver, and 7 bronze medals, as defined by Kaggle's progression system.
PDF676November 13, 2024