翻訳付きの日次キュレーションされたAI研究論文
Agent K v1.0を紹介します。これはエンドツーエンドの自律データサイエンスエージェントであり、多様なデータサイエンスタスクを自動化し、最適化し、一般化するために設計されています。完全に自動化されたAgent K v1.0は、経験から学習することでデータサイエンスのライフサイクル全体を管理します。高度に柔軟な構造化された推論フレームワークを活用し、ネストされた構造でメモリを動的に処理することで、蓄積された経験から学習し、複雑な推論タスクを処理します。Agent K v1.0は、環境からの報酬に基づいて将来の意思決定を導くために、長期および短期メモリを最適化し、主要情報を選択的に保存および取得します。この反復的なアプローチにより、微調整やバックプロパゲーションなしで意思決定を洗練し、経験的学習を通じて持続的な改善を実現します。私たちは、Kaggleコンペティションをケーススタディとして使用して、当社のエージェントの能力を評価します。完全に自動化されたプロトコルに従い、Agent K v1.0は、ハイパーパラメータの調整や特徴エンジニアリングのためにベイズ最適化を使用し、複雑で多様なデータサイエンスタスクにシステマティックに対処します。新しい評価フレームワークは、Agent K v1.0のエンドツーエンドの能力を厳密に評価し、KaggleコンペティションのURLから提出物を生成して送信する能力を示します。結果は、Agent K v1.0が表形式、コンピュータビジョン、NLP、および多様なドメインにわたるタスクで92.5\%の成功率を達成し、5,856人の人間のKaggle競技者と比較して、Elo-MMRスコアを計算することで、トップ38\%にランクインしていることを示しています。これは、全体的なスキルレベルがエキスパートレベルのユーザーと同等であることを示しています。Agent K v1.0のElo-MMRスコアは、人間のグランドマスターが達成したスコアの第1四分位数と第3四分位数の間に位置しています。さらに、私たちの結果は、Agent K v1.0がKaggleグランドマスターと同等のパフォーマンスレベルに達しており、Kaggleの進行システムで定義される通り、6つのゴールド、3つのシルバー、7つのブロンズメダルを獲得していることを示しています。
マルチモーダル大規模言語モデル(MLLMs)の急速な進化は、さまざまなマルチモーダルベンチマークで優れたパフォーマンスを示しています。ただし、トレーニング中のデータ汚染の問題は、パフォーマンス評価と比較において課題を生じさせます。大規模言語モデル(LLMs)におけるデータセットの汚染を検出するための多数の手法が存在しますが、それらはマルチモーダル性と複数のトレーニングフェーズを持つMLLMsに対しては効果が低いです。本研究では、MLLMs向けに設計されたマルチモーダルデータ汚染検出フレームワークであるMM-Detectを紹介します。実験結果によると、MM-Detectは異なる程度の汚染に対して敏感であり、マルチモーダルベンチマークのトレーニングセットの漏洩による著しいパフォーマンス向上を示すことができます。さらに、MLLMsによって使用されるLLMsの事前トレーニングフェーズやMLLMsのファインチューニングフェーズから汚染が生じる可能性についても探求し、汚染が導入される段階に新たな示唆を提供しています。
トランスフォーマーは、強力な適合能力により、さまざまな領域で広範な応用が見られています。この成功は、その固有の非線形性に一部帰因されます。したがって、元のトランスフォーマーアーキテクチャで採用されているReLU関数に加えて、研究者たちは非線形性を強化し表現能力を拡大するためにGeLUやSwishGLUなどの代替モジュールを探求してきました。本論文では、トランスフォーマーのダイナミクスを最適化するために設計された新しいカテゴリーの多項式合成活性化関数(PolyCom)を提案します。理論的には、PolyComの数学的解析を行い、他の活性化関数と比較してその表現力と効果を強調します。特筆すべきは、PolyComを組み込んだネットワークが最適な近似率を達成し、Sobolev空間における一般的な滑らかな関数を近似するために最小限のパラメータが必要であることを示しています。我々は、大規模言語モデル(LLM)の事前学習構成について、密な構造と疎な構造の両方を含む実験を行います。従来の活性化関数をPolyComに置き換えることで、LLMがデータ内の高次の相互作用を捉えることができ、その結果、精度や収束率の観点でパフォーマンスメトリクスが向上します。広範な実験結果は、我々の手法の効果を実証し、他の活性化関数に比べて著しい改善が見られることを示しています。コードはhttps://github.com/BryceZhuo/PolyComで入手可能です。
自己整合は、モデルが人間の注釈なしで自己改善を学ぶことができるようになる、急速に成長している研究分野です。しかし、既存の技術は、正しい報酬を割り当てる難しさから、複雑な推論タスクの改善にしばしば失敗します。正確性を向上させるとされる直交アプローチは、推論時に適用される自己整合性であり、複数のサンプリングに基づいて最も整合性のある回答を見つけるために使用されます。本研究では、自己整合性の概念をモデルのトレーニングに活用するために拡張します。その結果、自己整合性選好最適化(ScPO)を導入し、非監督学習の新しい問題で一貫した回答を不一致な回答よりも好ましいものとして反復的にトレーニングします。ScPOは、GSM8KやMATHなどの推論タスクにおいて、従来の報酬モデルトレーニングに比べて大幅な改善をもたらし、ゴールの回答や選好を持つ教師付きトレーニングとの差を縮めることを示します。また、ScPOを標準の教師付き学習と組み合わせることでさらなる結果の改善が見られます。ZebraLogicでは、ScPOがLlama-3 8BをLlama-3 70B、Gemma-2 27B、Claude-3 Haikuよりも優れたものに仕上げるためにLlama-3 8Bを微調整します。
Medpromptなどの実行時ステアリング戦略は、困難なタスクで大規模言語モデル(LLM)を最高のパフォーマンスに導くのに貴重です。Medpromptは、プロンプトを使用して実行時戦略を誘発し、思考の連鎖推論とアンサンブルを含む方法で、一般的なLLMを医学などの専門領域で最先端のパフォーマンスを提供するように焦点を合わせることができることを示しています。OpenAIのo1-previewモデルは、最終的な応答を生成する前に実行時推論を行うように設計された新しいパラダイムを表しています。私たちは、o1-previewが様々な医学的チャレンジ問題のベンチマークでどのような振る舞いをするかを理解しようとしています。GPT-4とのMedprompt研究に続いて、私たちはo1-previewモデルをさまざまな医学的ベンチマークで体系的に評価します。特筆すべきことに、プロンプト技術を使用しなくても、o1-previewはMedpromptを使用したGPT-4シリーズを大幅に上回ることが多いです。私たちは、新しい推論モデルのパラダイム内でMedpromptに代表されるクラシックなプロンプトエンジニアリング戦略の効果を体系的に調査しました。few-shot promptingがo1のパフォーマンスを妨げることがわかり、文脈に即した学習は推論ネイティブモデルにとって効果的なステアリング手法ではなくなっている可能性を示唆しています。アンサンブルは引き続き有効ですが、リソースが多く必要であり、注意深いコストパフォーマンスの最適化が必要です。実行時戦略全体でのコストと精度の分析により、GPT-4oはより手頃な選択肢であり、o1-previewはより高いコストで最先端のパフォーマンスを達成していることが示されるペアレートフロンティアが明らかになります。o1-previewは最高のパフォーマンスを提供しますが、Medpromptなどのステアリング戦略を使用したGPT-4oは特定の文脈で価値を保持していることに留意します。さらに、o1-previewモデルが既存の多くの医学的ベンチマークでほぼ飽和状態に達していることを強調し、新しい、挑戦的なベンチマークの必要性を強調します。LLMとの推論時計算の一般的な方向性についての考察で締めくくります。