大規模言語モデルが構造化された推論を組み合わせ、Kaggleのグランドマスターレベルを達成するLarge Language Models Orchestrating Structured Reasoning Achieve Kaggle
Grandmaster Level
Agent K v1.0を紹介します。これはエンドツーエンドの自律データサイエンスエージェントであり、多様なデータサイエンスタスクを自動化し、最適化し、一般化するために設計されています。完全に自動化されたAgent K v1.0は、経験から学習することでデータサイエンスのライフサイクル全体を管理します。高度に柔軟な構造化された推論フレームワークを活用し、ネストされた構造でメモリを動的に処理することで、蓄積された経験から学習し、複雑な推論タスクを処理します。Agent K v1.0は、環境からの報酬に基づいて将来の意思決定を導くために、長期および短期メモリを最適化し、主要情報を選択的に保存および取得します。この反復的なアプローチにより、微調整やバックプロパゲーションなしで意思決定を洗練し、経験的学習を通じて持続的な改善を実現します。私たちは、Kaggleコンペティションをケーススタディとして使用して、当社のエージェントの能力を評価します。完全に自動化されたプロトコルに従い、Agent K v1.0は、ハイパーパラメータの調整や特徴エンジニアリングのためにベイズ最適化を使用し、複雑で多様なデータサイエンスタスクにシステマティックに対処します。新しい評価フレームワークは、Agent K v1.0のエンドツーエンドの能力を厳密に評価し、KaggleコンペティションのURLから提出物を生成して送信する能力を示します。結果は、Agent K v1.0が表形式、コンピュータビジョン、NLP、および多様なドメインにわたるタスクで92.5\%の成功率を達成し、5,856人の人間のKaggle競技者と比較して、Elo-MMRスコアを計算することで、トップ38\%にランクインしていることを示しています。これは、全体的なスキルレベルがエキスパートレベルのユーザーと同等であることを示しています。Agent K v1.0のElo-MMRスコアは、人間のグランドマスターが達成したスコアの第1四分位数と第3四分位数の間に位置しています。さらに、私たちの結果は、Agent K v1.0がKaggleグランドマスターと同等のパフォーマンスレベルに達しており、Kaggleの進行システムで定義される通り、6つのゴールド、3つのシルバー、7つのブロンズメダルを獲得していることを示しています。