翻訳付きの日次キュレーションされたAI研究論文
プロセス報酬モデル(PRM)は、大規模言語モデル(LLM)の数学的推論におけるプロセス監視の有望なアプローチとして登場し、推論プロセスにおける中間エラーを特定し軽減することを目指しています。しかしながら、効果的なPRMの開発には、特にデータ注釈と評価方法論において著しい課題が存在します。本論文では、幅広い実験を通じて、一般的に使用されるモンテカルロ(MC)推定に基づくPRM用データ合成が、通常LLM-判定者および人間注釈方法と比較して、劣った性能と汎化をもたらすことを示します。MC推定は、現在のステップの正確性を評価するために補完モデルに依存しており、不正確なステップ検証をもたらします。さらに、PRM向けの従来のBest-of-N(BoN)評価戦略における潜在的なバイアスを特定します:(1)信頼性のないポリシーモデルは、正しい答えを生成しますが、欠陥のあるプロセスをもたらし、BoNの評価基準とPRMのプロセス検証の目的との不一致を引き起こします。 (2)このような応答に対するPRMの許容度が、BoNスコアを過大評価する原因となります。 (3)既存のPRMは、最終的な回答ステップに集中した最小スコアのかなりの割合を持ち、BoN最適化PRMにおけるプロセスから結果ベースの評価への移行を示しています。これらの課題に対処するために、MC推定をLLM-判定者と効果的に統合する合意フィルタリングメカニズムを開発し、応答レベルとステップレベルのメトリクスを組み合わせたより包括的な評価フレームワークを提唱します。これらのメカニズムに基づいて、BoN評価およびステップごとのエラー識別タスクにおいて、モデルの性能とデータ効率を大幅に向上させます。最後に、既存のオープンソースの代替手段を凌駕し、プロセス監視モデルの将来の研究に向けた実践的なガイドラインを提供する、新たな最先端のPRMを公開します。
言語モデルを長い入力シーケンスに対応させるためには通常、大規模なキー・値(KV)キャッシュが必要となり、推論時に膨大なメモリオーバーヘッドが発生します。本論文では、テンソル積注意(TPA)という新しい注意メカニズムを提案し、テンソル分解を使用してクエリ、キー、値をコンパクトに表現し、推論時のKVキャッシュサイズを大幅に縮小します。これらの表現を文脈に応じた低ランク成分(文脈的分解)に因数分解し、RoPEとシームレスに統合することで、TPAはモデルの品質向上とメモリ効率を実現します。TPAに基づいて、シーケンスモデリングのための新しいモデルアーキテクチャであるTensor ProducT ATTenTion Transformer(T6)を紹介します。言語モデリングタスクの包括的な実証評価を通じて、T6がパープレキシティやさまざまな評価ベンチマークを含むさまざまなメトリクスで、MHA、MQA、GQA、MLAなどの標準的なTransformerベースラインの性能を上回ることを示します。特に、TPAのメモリ効率により、現代の言語モデルにおける重要なスケーラビリティの課題を解決し、固定されたリソース制約下で著しく長いシーケンスの処理が可能となります。コードはhttps://github.com/tensorgi/T6 で入手可能です。
ビジョン言語モデル(VLM)の開発は、大規模かつ多様なマルチモーダルデータセットによって推進されています。しかしながら、一般的なバイオメディカルVLMへの進展は、生物学と医学全般にわたる注釈付きで一般にアクセス可能なデータセットの不足によって制約されています。既存の取り組みは狭い領域に制限されており、科学文献にコード化されたバイオメディカル知識の完全な多様性が欠けています。このギャップを埋めるために、PubMed Central Open Accessサブセット全体を抽出、注釈付け、シリアル化するための使いやすい、一般にアクセス可能なデータセットを提供するスケーラブルでオープンソースのフレームワークであるBIOMEDICAを紹介します。当フレームワークは、600万以上の記事から24百万以上のユニークな画像テキストペアを含む包括的なアーカイブを生成します。メタデータと専門家による注釈も提供されます。BIOMEDICAデータセットを介して連続的に事前学習されたCLIPスタイルのモデル群であるBMCA-CLIPをリリースすることで、ローカルで27 TBのデータをダウンロードする必要がなくなり、リソースの有用性とアクセシビリティを実証します。平均して、当モデルは40のタスク全体で最先端のパフォーマンスを達成し、病理学、放射線学、眼科学、皮膚科、外科、分子生物学、寄生虫学、細胞生物学を網羅し、ゼロショット分類で6.56%の平均改善(皮膚科と眼科学ではそれぞれ29.8%と17.5%の高さ)を達成し、より強力な画像テキスト検索を実現しつつ、10分の1の計算資源を使用します。再現性と協力を促進するために、当コードベースとデータセットを研究コミュニティ全体に公開します。
自己適応型の大規模言語モデル(LLM)は、従来のファインチューニング手法によって引き起こされる課題を解決することを目指しています。これらの手法は、しばしば計算量が多く、多様なタスクを処理する能力において静的です。我々は、未知のタスクに対してLLMをリアルタイムで自己適応させる革新的なフレームワークである「\implname」を紹介します。推論中、\implnameは、まずディスパッチシステムがタスクの特性を識別し、その後、強化学習を用いてトレーニングされたタスク固有の「専門家」ベクトルを動的に混合して、入力プロンプトに対するターゲットとなる動作を得ます。我々の手法は、LoRAなどの普及しているアプローチを上回り、より少ないパラメータと高い効率を実現しています。また、\implnameは、ビジョン-言語タスクを含むさまざまなLLMアーキテクチャやモダリティに対して汎用性を示しています。\implnameは、LLMの適応性とタスク固有のパフォーマンスを向上させるためのスケーラブルで効率的なソリューションを提供し、真にダイナミックで自己組織化されたAIシステムへの道を開いています。
最近の大規模言語モデル(LLM)とマルチモーダル音声テキストモデルの進歩により、シームレスな音声インタラクションを可能にし、リアルタイムで自然で人間らしい会話が実現される基盤が築かれました。過去の音声インタラクションモデルは、ネイティブとアラインされたものに分類されます。ネイティブモデルは音声とテキスト処理を1つのフレームワークに統合しますが、異なるシーケンス長や不十分な事前トレーニングなどの課題に直面しています。一方、アラインされたモデルはテキストLLMの機能を維持しつつ、小規模なデータセットや音声タスクへの焦点の狭さによって制約されることが多いです。本研究では、シームレスな音声インタラクションのための約80億のパラメータを持つマルチモーダル大規模言語モデルであるMinMoを紹介します。MinMoは、従来のアラインされたマルチモーダルモデルの主な制約に対処しています。我々は、MinMoを多段階の音声からテキストへのアラインメント、テキストから音声へのアラインメント、音声から音声へのアラインメント、およびデュプレックスインタラクションのアラインメントを通じて、多様な音声データと幅広い音声タスクにわたって140万時間以上のトレーニングを行います。多段階のトレーニングの後、MinMoは、音声理解と生成のさまざまなベンチマークで最先端のパフォーマンスを達成し、テキストLLMの機能を維持しつつ、ユーザーとシステムの間での全二重会話、すなわち同時の双方向コミュニケーションを可能にします。さらに、我々は、音声生成において従来のモデルを上回る新しい簡潔な音声デコーダを提案しています。MinMoの強化された指示に従う機能は、ユーザーの指示に基づいて音声生成を制御し、感情、方言、話速などのさまざまなニュアンスや特定の声を模倣することをサポートします。MinMoの音声からテキストへの遅延は約100msであり、全二重の遅延は理論上約600ms、実際には約800msです。MinMoプロジェクトのウェブページはhttps://funaudiollm.github.io/minmoであり、コードとモデルは近日公開されます。
最近のビデオ生成モデルは、数秒間続く高品質なビデオクリップを生成することで有望な結果を示しています。しかし、これらのモデルは長いシーケンスを生成する際に説明力のあるイベントを伝えることに課題を抱えており、一貫したナレーションをサポートする能力が制限されています。本論文では、料理領域における長編ナラティブ生成を推進するために設計された大規模な料理ビデオデータセットを提案します。我々は、提案されたデータセットの視覚的忠実度とテキストキャプションの精度を、最新のビジョン・ランゲージ・モデル(VLMs)とビデオ生成モデルを用いて検証します。さらに、ビジュアルと意味の一貫性を向上させるために長編ナラティブビデオディレクターを導入し、ビジュアル埋め込みを整合させる役割を強調します。我々の手法は、テキストと画像の埋め込みをビデオ生成プロセス内で統合する微調整技術によって、視覚的に詳細で意味的に整合したキーフレームの生成において著しい改善を示しています。プロジェクトページ: https://videoauteur.github.io/
過去のO1複製に関する調査(Part 1: Journey Learning [Qin et al., 2024] および Part 2: Distillation [Huang et al., 2024])を基にして、本研究では、医療推論タスクにおける大規模言語モデル(LLMs)の推論時スケーリングの潜在能力を探求します。これには、診断意思決定から治療計画までの範囲が含まれます。MedQA、Medbullets、およびJAMA Clinical Challengesといった異なる複雑さの医療ベンチマークに対する包括的な実験を通じて、我々の調査はいくつかの重要な洞察を明らかにしました:(1)推論時間の増加は性能の向上につながります。500サンプルという控えめなトレーニングセットにより、我々のモデルは6%〜11%の大幅な性能向上を達成しました。 (2)タスクの複雑さは推論チェーンの必要な長さと直接相関しており、難解な問題に対する拡張された思考プロセスの必要性を確認しています。 (3)我々のモデルによって生成された鑑別診断は、仮説的演繹法の原則に従い、患者の症状を説明する可能性のある疾患のリストを生成し、証拠を評価することでこれらの可能性を系統的に絞り込んでいます。これらの知見は、推論時スケーリングとJourney Learningの有望なシナジーを示し、LLMsの現実世界の臨床推論能力の向上を促進しています。
情報検索拡張生成(RAG)は、オープンドメインの質問応答タスク全般で顕著な性能を示しています。ただし、従来の検索エンジンは浅いコンテンツを取得する可能性があり、LLMが複雑で多層情報を処理する能力が制限されることがあります。この課題に対処するために、WebWalkerQAを導入します。これは、LLMがウェブトラバーサルを実行する能力を評価するために設計されたベンチマークです。WebWalkerは、人間のようなウェブナビゲーションを探索評価者パラダイムを通じて模倣するマルチエージェントフレームワークです。幅広い実験結果は、WebWalkerQAが挑戦的であり、RAGとWebWalkerの組み合わせの効果を示しています。これにより、実世界のシナリオでの水平および垂直統合が実証されています。
大規模言語モデル(LLMs)は、さまざまなタスクで優れたパフォーマンスを示していますが、そのトレーニングは非常にリソース集約型であり、トレーニングの不安定性などの重要な課題に影響を受けやすいです。この不安定性の主要な原因の1つは、勾配と損失の急上昇であり、これらは学習プロセスを妨げ、しばしばコストのかかる介入(チェックポイントの回復や実験の再開始など)を引き起こし、効率をさらに損ないます。本論文では、LLMのトレーニング中に観察される勾配スパイクについて包括的な調査を行い、これらのスパイクが複数のアーキテクチャとデータセット全体にわたって広く存在していることを明らかにします。当社の分析によると、これらのスパイクは通常の勾配の1000倍にもなり、モデルのパフォーマンスを著しく低下させることがあります。この問題に対処するため、勾配スパイクに対抗するためにモーメンタムのリセットとスパイク認識勾配クリッピングを通じて勾配スパイクを緩和することを目的とした新しいオプティマイザ、Spike-Aware Adam with Momentum Reset SPAMを提案します。60Mから1BへのLLMの事前トレーニング、4ビットLLMの事前トレーニング、強化学習、および時系列予測を含むさまざまなタスクで、SPAMがAdamおよびその派生モデルを常に上回ることを示す包括的な実験を行いました。さらに、SPAMは、スパースモーメンタムを可能にすることでメモリ効率のトレーニングを促進し、メモリ制約下で動作する際には、GaLoreやAdam-Miniなどの最先端のメモリ効率の最適化手法を上回ります。私たちの研究は、LLMのトレーニング中の勾配スパイクを緩和することの重要性を強調し、規模の経済性とトレーニングの安定性の両方を高める効果的な最適化戦略を紹介しています。コードはhttps://github.com/TianjinYellow/SPAM-Optimizer.gitで入手可能です。
3Dディープラーニングと3D生成AI向けの新しいオブジェクト中心のデータセットであるUncommon Objects in 3D(uCO3D)を紹介します。uCO3Dは、360度の全方位カバレッジを確保する3D注釈付きオブジェクトの高解像度ビデオの最大の公開コレクションです。uCO3Dは、MVImgNetやCO3Dv2よりもはるかに多様であり、1,000以上のオブジェクトカテゴリをカバーしています。収集されたビデオと3D注釈の両方に広範な品質チェックが行われているため、品質も高いです。類似したデータセットと同様に、uCO3Dには3Dカメラポーズ、深度マップ、疎な点群の注釈が含まれています。さらに、各オブジェクトにはキャプションと3Dガウススプラット再構築が付属しています。MVImgNet、CO3Dv2、およびuCO3Dでいくつかの大規模な3Dモデルをトレーニングし、後者を使用することで優れた結果を得ました。これにより、学習アプリケーションにおいてuCO3Dがより適していることが示されました。
化学的な推論は通常、正確な計算を必要とする複雑で多段階のプロセスを含み、わずかなエラーでも連鎖的な失敗を引き起こす可能性があります。さらに、大規模言語モデル(LLMs)は、化学的な推論タスクに取り組む際に、特定のドメインの式を処理し、推論ステップを正確に実行し、コードを効果的に統合することに難しさを抱えています。これらの課題に対処するため、私たちはChemAgentを提案します。これは、LLMsのパフォーマンスを向上させるために設計された革新的なフレームワークです。このライブラリは、化学的なタスクをサブタスクに分解し、これらのサブタスクを将来のクエリのために参照できるように構造化されたコレクションにコンパイルすることで開発されます。そして、新しい問題が提示されると、ChemAgentはライブラリから関連情報を取得し、磨き上げることで、効果的なタスクの分解と解決策の生成を容易にするためのメモリと呼ばれるものを促進します。私たちの手法は、3種類のメモリとライブラリ強化推論コンポーネントを設計し、LLMsが経験を通じて時間とともに改善できるようにします。SciBenchからの4つの化学的推論データセットに対する実験結果は、ChemAgentが最大46%(GPT-4)のパフォーマンス向上を達成し、既存の手法を大幅に上回ることを示しています。私たちの調査結果は、薬物発見や材料科学などのタスクを含む将来の応用に大きな可能性を示唆しています。私たちのコードは、https://github.com/gersteinlab/chemagent で入手できます。
ファウンデーションモデルは、しばしばノイズのあるデータ、バイアス、および関連性のないコンテンツを含む大規模なWebクロールデータセットに依存しています。既存のデータ選択手法は、通常、人間のヒューリスティック、下流の評価データセット、または専門のスコアリングモデルを使用しており、トレーニングプロセスでサンプルの有用性を見落とすことがあります。代わりに、我々は新しいアプローチ、Mimic Scoreを提案します。これは、事前学習された参照モデルをガイドとして使用し、新しいモデルのトレーニングにおけるデータサンプルの有用性を評価するデータ品質メトリックです。これは、新しいモデルパラメータの勾配と、ウェイト空間で参照モデルを指すベクトルとの整合性に依存しています。この方向と一致しないサンプルは低価値と見なされ、除外される可能性があります。Mimicスコアに触発され、有用なサンプルを特定し優先順位付けするデータ選択フレームワークであるGrad-Mimicを開発します。これにより、効果的なフィルタを作成するための選択プロセスが自動化されます。経験的には、Mimicスコアを使用してモデルトレーニングをガイドすることで、6つの画像データセット全体で一貫したパフォーマンス向上が見られ、CLIPモデルのパフォーマンスも向上します。さらに、Mimicスコアとそれに関連するフィルタは、既存のフィルタリング方法を改善し、データセット品質の正確な推定を提供します。