翻訳付きの日次キュレーションされたAI研究論文
我々はAdam-miniを提案する。これはAdamWと同等かそれ以上の性能を達成しつつ、メモリ使用量を45%から50%削減する最適化手法である。Adam-miniは、Adamにおける学習率リソース(すなわち1/v)を削減することでメモリ使用量を削減する。我々は、vにおける学習率の90%以上が無害に除去可能であることを発見した。これは、(1)提案されたヘッシアン構造に基づく原則に従ってパラメータをブロックに分割し、(2)各パラメータブロックに単一の適切な学習率を割り当てることで実現される。さらに、これらのパラメータブロックごとに、十分なリソースがあれば探索可能な単一の高品質な学習率が存在し、それがAdamを上回る性能を発揮し得ることを見出した。我々はその後、適切な学習率を見つけるためのコスト効率の良い方法を提供し、Adam-miniを提案する。実験的に、Adam-miniが125Mから7B規模の様々な言語モデルにおいて、事前学習、教師ありファインチューニング、RLHFにおいてAdamWと同等かそれ以上の性能を発揮することを検証した。Adam-miniの削減されたメモリ使用量は、GPUとCPU間の通信オーバーヘッドを軽減し、スループットを向上させる。例えば、Adam-miniは2台のA800-80GB GPUでLlama2-7Bを事前学習する際、AdamWよりも49.6%高いスループットを達成し、事前学習の実時間を33%節約する。
AIエージェントは、自律的な意思決定と問題解決を可能にすることで、さまざまな領域で重要性を増しています。これらのエージェントが効果的に機能するためには、最適な行動方針を決定し、計画された行動を実行するための計画プロセスが必要です。本論文では、計画と行動実行を2つの独立したコンポーネントに分離した効率的なオンデバイス「Planner-Action」フレームワークを提案します。このフレームワークは、エッジデバイス向けに最適化された38億パラメータのLLMであるPhi-3 Miniを基にしたプランナーエージェントと、関数実行のためのOctopusモデルを使用するアクションエージェントで構成されています。プランナーエージェントは、まずユーザーのクエリに応答し、タスクを一連のサブステップに分解します。その後、アクションエージェントがこれらのサブステップを実行します。リソースが制約されたデバイスでのパフォーマンスを最適化するため、コンテキスト内学習ではなくモデルのファインチューニングを採用し、計算コストとエネルギー消費を削減しながら応答時間を改善します。私たちのアプローチでは、GPT-4を使用して利用可能な関数に基づいた多様な計画クエリと応答を生成し、データ品質を確保するための検証を行います。このキュレーションされたデータセットでPhi-3 Miniモデルをファインチューニングし、ドメイン内テスト環境で97%の成功率を達成しました。複数ドメインの計画課題に対処するため、異なる関数サブセットでトレーニングされたLoRAの重みを統合するマルチLoRAトレーニング手法を開発しました。このアプローチにより、リソースが制約されたデバイス上で計算効率を維持しながら、複雑な複数ドメインクエリを柔軟に処理することが可能になります。さらなる研究を支援するため、モデルの重みをhttps://huggingface.co/NexaAIDev/octopus-planningでオープンソースとして公開しています。デモについては、https://www.nexa4ai.com/octo-plannerを参照してください。
チャート理解は、科学論文や財務報告書の分析といった実世界のタスクにマルチモーダル大規模言語モデル(MLLM)を適用する際に重要な役割を果たします。しかし、既存のデータセットは、過度に単純化され均質なチャートとテンプレートベースの質問に焦点を当てることが多く、進捗を過大評価する結果を招いています。我々は、オープンソースモデルがこれらのベンチマークで強力なプロプライエタリモデルを上回るように見える場合でも、わずかに異なるチャートや質問を用いた簡単なストレステストで、性能が最大34.5%低下することを実証しました。本研究では、arXiv論文から2,323の自然で挑戦的かつ多様なチャートを含む包括的な評価スイートであるCharXivを提案します。CharXivには、1)基本的なチャート要素を調べる記述的な質問と、2)チャート内の複雑な視覚要素にわたる情報を統合する必要がある推論的な質問の2種類の質問が含まれています。品質を確保するため、すべてのチャートと質問は人間の専門家によって手作業で選定、キュレーション、検証されています。我々の結果は、最高のプロプライエタリモデル(GPT-4o、47.1%の精度)と最高のオープンソースモデル(InternVL Chat V1.5、29.2%の精度)の推論能力の間に、これまで過小評価されていた大きなギャップがあることを明らかにしています。すべてのモデルは、人間の性能(80.5%)にはるかに及ばず、既存のMLLMのチャート理解能力の弱点を浮き彫りにしています。我々は、CharXivがより現実的で忠実な進捗の測定を提供することで、MLLMのチャート理解に関する将来の研究を促進することを期待しています。プロジェクトページとリーダーボード: https://charxiv.github.io/
我々は、テキストからビデオ(T2V)生成モデル(例:SoraやLumiere)のタイムラプスビデオ生成における時間的および変容的機能を評価するための新しいベンチマーク、ChronoMagic-Benchを提案します。既存のベンチマークが生成ビデオの視覚的品質とテキスト的関連性に焦点を当てているのに対し、ChronoMagic-Benchは、モデルが大幅な変容的振幅と時間的整合性を持つタイムラプスビデオを生成する能力に焦点を当てています。このベンチマークは、自由形式のテキストクエリにおいて、T2Vモデルの物理学、生物学、化学の能力を探ります。これらの目的のために、ChronoMagic-Benchは1,649のプロンプトと実世界のビデオを参照として導入し、生物学的、人間が作り出した、気象学的、物理的現象の4つの主要なタイプのタイムラプスビデオに分類し、さらに75のサブカテゴリに分けます。この分類は、モデルが多様で複雑な変容を処理する能力を包括的に評価します。人間の好みをベンチマークに正確に合わせるために、ビデオの変容的属性と時間的整合性を評価するための2つの新しい自動メトリック、MTScoreとCHScoreを導入します。MTScoreは変容的振幅を測定し、時間の経過に伴う変化の程度を反映し、CHScoreは時間的整合性を評価し、生成されたビデオが論理的な進行と連続性を維持することを保証します。ChronoMagic-Benchに基づいて、我々は10の代表的なT2Vモデルの包括的な手動評価を行い、異なるカテゴリのプロンプトにおけるそれらの強みと弱みを明らかにし、ビデオ生成研究における現在のギャップに対処する徹底的な評価フレームワークを提供します。さらに、720pの高品質なタイムラプスビデオと詳細なキャプションを含む460kの大規模なChronoMagic-Proデータセットを作成し、高い物理的関連性と大きな変容的振幅を確保します。
専門家混合モデル(Mixture-of-Experts, MoE)は、その独特な特性と特に言語タスクにおける顕著なパフォーマンスにより、ますます注目を集めています。MoEアーキテクチャは、各トークンに対してパラメータのサブセットを疎に活性化することで、計算効率を犠牲にすることなくモデルサイズを増大させ、パフォーマンスとトレーニングコストの間のより良いトレードオフを実現します。しかし、MoEの根底にあるメカニズムはまだ十分に解明されておらず、そのモジュール化の程度も疑問視されています。本論文では、MoEベースの大規模言語モデルの内部動作を理解するための最初の試みを行います。具体的には、最近の3つのMoEベースモデルのパラメトリックおよび行動的特徴を包括的に研究し、いくつかの興味深い観察結果を明らかにします。これには、(1) ニューロンが細粒度の専門家のように振る舞う、(2) MoEのルーターは通常、出力ノルムが大きい専門家を選択する、(3) 専門家の多様性は層が深くなるにつれて増加するが、最後の層は例外である、といった点が含まれます。これらの観察結果に基づいて、ルーター設計や専門家の割り当てなど、幅広いMoE実践者に対する提案も提供します。本研究が、MoEフレームワークや他のモジュール型アーキテクチャに関する将来の研究に光を当てることを願っています。コードはhttps://github.com/kamanphoebe/Look-into-MoEsで公開されています。
私たちはWildGuardを紹介します。これは、LLMの安全性のためのオープンで軽量なモデレーションツールであり、以下の3つの目標を達成します。(1) ユーザープロンプト内の悪意ある意図の識別、(2) モデル応答の安全性リスクの検出、(3) モデルの拒否率の判定。WildGuardは、LLMインタラクションの自動安全モデレーションと評価の増大するニーズに応え、13のリスクカテゴリーにわたる高い精度と広範なカバレッジを提供するワンストップツールとして機能します。既存のオープンモデレーションツール(例:Llama-Guard2)は、単純なモデルインタラクションの分類においては一定のスコアを達成していますが、特に敵対的なジャイルブレイクの識別や、モデル応答の安全性評価における重要な指標である拒否率の評価においては、プロンプトされたGPT-4に大きく遅れを取っています。 これらの課題に対処するため、私たちはWildGuardMixを構築しました。これは、92Kのラベル付き例を含む大規模で注意深くバランスの取れたマルチタスク安全モデレーションデータセットであり、バニラ(直接的な)プロンプトと敵対的なジャイルブレイクをカバーし、さまざまな拒否および準拠応答とペアになっています。WildGuardMixは、WildGuardのトレーニングデータであるWildGuardTrainと、5Kのラベル付き項目を含む高品質な人間によるアノテーションが施されたモデレーションテストセットであるWildGuardTestの組み合わせです。WildGuardTestと10の既存の公開ベンチマークでの広範な評価を通じて、WildGuardが10の強力な既存のオープンソースモデレーションモデルと比較して、3つのタスクすべてにおいて最先端のパフォーマンスを確立していることを示しています(例:拒否検出において最大26.4%の改善)。重要なことに、WildGuardはGPT-4のパフォーマンスに匹敵し、時にはそれを上回ります(例:プロンプトの有害性識別において最大3.9%の改善)。WildGuardは、LLMインターフェースにおいて非常に効果的な安全モデレーターとして機能し、ジャイルブレイク攻撃の成功率を79.8%から2.4%に削減します。
電子健康記録(EHR)は、患者の包括的な医療記録を保存するために不可欠であり、構造化データ(例:薬剤情報)と詳細な臨床ノート(例:医師の記録)を組み合わせています。これらの要素は、データの簡単な検索を可能にし、患者ケアに関する深い文脈的洞察を提供します。しかし、直感的でないEHRシステム設計や人的ミスによる不一致が頻繁に発生し、患者の安全に重大なリスクをもたらします。この問題に対処するため、我々はEHRConという新しいデータセットとタスクを開発しました。EHRConは、EHR内の構造化テーブルと非構造化ノート間のデータ整合性を確保するために特別に設計されています。EHRConは、医療専門家との協力のもと、MIMIC-III EHRデータセットを使用して作成され、3,943のエンティティにわたる105の臨床ノートに対してデータベースエントリとの整合性を確認する手動アノテーションが含まれています。EHRConには、適用性と一般化性を高めるために、オリジナルのMIMIC-IIIスキーマを使用したバージョンと、OMOP CDMスキーマを使用したバージョンの2種類があります。さらに、大規模言語モデルの能力を活用して、臨床ノートとデータベーステーブル間の整合性を検証する新しいフレームワークであるCheckEHRを導入します。CheckEHRは8段階のプロセスを利用し、few-shotおよびzero-shot設定で有望な結果を示しています。コードはhttps://github.com/dustn1259/EHRConで公開されています。
AIコミュニティは、プロンプト技術とツール使用法を組み合わせた複雑な大規模言語モデル(LLM)パイプラインである「言語エージェント」を開発することで、人工汎用知能(AGI)への道を探求してきました。言語エージェントは多くの現実世界のタスクで印象的な能力を発揮していますが、現在の言語エージェント研究の根本的な限界は、それがモデル中心、またはエンジニアリング中心であることです。つまり、言語エージェントのプロンプト、ツール、パイプラインの進展には、データから自動的に学習するのではなく、人間の専門家による多大な手作業のエンジニアリング努力が必要です。私たちは、モデル中心またはエンジニアリング中心からデータ中心への移行、すなわち言語エージェントが環境内で自律的に学習し進化する能力こそが、彼らがAGIを達成するための鍵であると考えています。 本論文では、シンボリックオプティマイザを使用して言語エージェントがデータ中心の方法で自己最適化を行うことを可能にする体系的なフレームワークである「エージェントシンボリック学習」を紹介します。具体的には、エージェントをプロンプト、ツール、およびそれらが組み合わされる方法によって定義される学習可能な重みを持つシンボリックネットワークと見なします。エージェントシンボリック学習は、接続主義学習における2つの基本的なアルゴリズムであるバックプロパゲーションと勾配降下法を模倣することで、言語エージェント内のシンボリックネットワークを最適化するように設計されています。数値的な重みではなく、エージェントシンボリック学習は重み、損失、勾配の自然言語シミュラクラムを扱います。標準的なベンチマークと複雑な現実世界のタスクの両方で概念実証実験を行い、エージェントシンボリック学習が言語エージェントを作成および展開後に自己更新を行い、「自己進化するエージェント」を実現することを示します。
サッカーは世界的に人気のあるスポーツであり、膨大な観客を抱えています。本論文では、視聴者の視聴体験を向上させるため、自動サッカー試合実況モデルの構築を検討します。一般的に、我々は以下の貢献を行いました:第一に、既存のデータセットで広く見られるビデオとテキストの不整合を観察し、49試合に対して手動でタイムスタンプを注釈し、より堅牢なサッカー試合実況生成のベンチマークを確立しました。これをSN-Caption-test-alignと称します。第二に、既存のデータセットを大規模に自動修正・フィルタリングするためのマルチモーダル時間整合パイプラインを提案し、より高品質なサッカー試合実況データセットを作成しました。これをMatchTimeと称します。第三に、我々が整備したデータセットに基づいて、自動実況生成モデルを訓練しました。これをMatchVoiceと名付けます。広範な実験とアブレーションスタディにより、我々の整合パイプラインの有効性が実証され、整備されたデータセットで訓練したモデルは、実況生成において最先端の性能を達成しました。これは、より良い整合が下流タスクにおいて重要な性能向上をもたらすことを示しています。
大規模言語モデル(LLM)は、特にテキストベースの数学的問題解決において、印象的な推論能力を示してきました。しかし、既存のオープンソースの画像指示ファインチューニングデータセットは、画像ごとに限られた質問-回答ペアしか含まれておらず、マルチモーダルLLM(MLLM)の多様な数学的推論能力を強化するために視覚情報を十分に活用していません。このギャップを埋めるため、我々は高品質で多様なマルチモーダル数学データセットの不足に対処し、24の既存データセットから40Kの高品質な画像と質問-回答ペアを収集し、さらに320Kの新しいペアを合成することで、MathV360Kデータセットを作成しました。これにより、マルチモーダル数学問題の幅と深さの両方が強化されました。我々は、MathV360KでファインチューニングされたLLaVA-1.5ベースのモデルであるMath-LLaVAを導入しました。この新しいアプローチにより、LLaVA-1.5のマルチモーダル数学推論能力が大幅に向上し、MathVistaのミニテスト分割において19ポイントの向上を達成し、GPT-4Vと同等の性能を示しました。さらに、Math-LLaVAは一般化能力が向上し、MMMUベンチマークにおいて大幅な改善を示しました。我々の研究は、MLLMの数学的推論能力を進歩させるためのデータセットの多様性と合成の重要性を強調しています。コードとデータは以下で公開されています: https://github.com/HZQ950419/Math-LLaVA。
私たちはWildTeamingを紹介します。これは、実世界のユーザーとチャットボットのインタラクションをマイニングして5,700のユニークなクラスターの新しいジェイルブレイク戦術を発見し、複数の戦術を組み合わせて新しいジェイルブレイクを体系的に探索する自動LLMセキュリティレッドチーミングフレームワークです。従来の研究では、募集した人間の作業者、勾配ベースの最適化、またはLLMを用いた反復的な修正を通じてレッドチーミングを行っていましたが、私たちの研究は、システムを破るように特に指示されていないチャットボットユーザーからのジェイルブレイクを調査します。WildTeamingは、最先端のLLMのこれまで特定されていなかった脆弱性を明らかにし、最新のジェイルブレイク手法と比較して最大4.6倍の多様性と成功率を持つ敵対的攻撃を実現します。 ジェイルブレイク評価のための多くのデータセットが存在する一方で、ジェイルブレイクトレーニングのためのオープンソースのデータセットは非常に少なく、モデルの重みが公開されている場合でもセキュリティトレーニングデータは非公開となっています。WildTeamingでは、262Kのバニラ(直接的なリクエスト)と敵対的(複雑なジェイルブレイク)なプロンプト-レスポンスペアを含む大規模なオープンソースの合成セキュリティデータセットであるWildJailbreakを作成します。過剰なセキュリティ行動を緩和するために、WildJailbreakは2つの対照的なタイプのクエリを提供します:1)有害なクエリ(バニラ&敵対的)と2)有害なクエリに似た形式を持つが害のない良性クエリです。WildJailbreakは既存のセキュリティリソースの品質と規模を大幅に向上させるため、データのスケーリング効果やセキュリティトレーニング中のデータ特性とモデル能力の相互作用を検証することを可能にします。広範な実験を通じて、適切な保護と過剰な拒否のない理想的なセキュリティ行動のバランスを実現するトレーニング特性を特定しました:バニラと敵対的クエリの効果的な処理、一般的な能力の最小限の低下(もしあれば)です。WildJailbreakのすべてのコンポーネントが、モデルのバランスの取れたセキュリティ行動の実現に貢献します。
深層ニューラルポリシーは最近、バイオテクノロジーから自動化された金融システムまで、多様な分野で導入されています。しかし、価値関数を近似するために深層ニューラルネットワークを利用することは、特に高度に非凸で複雑な深層ニューラル多様体に起因する、認識不能で非ロバストな特徴に対するポリシー意思決定の感度に関して、決定境界の安定性に関する懸念を引き起こします。これらの懸念は、深層ニューラルポリシーによる推論とその根本的な限界を理解する上での障害となります。したがって、ニューラルネットワークポリシーの学習表現における感度を理解するための技術を開発することが極めて重要です。これを実現するために、時間と空間にわたる深層ニューラルポリシーの決定境界における不安定な方向を体系的に分析する、理論的に基づいた手法を導入します。Arcade Learning Environment (ALE) での実験を通じて、相関する不安定方向を特定し、サンプルの変化がニューラルポリシーの風景における敏感な方向の集合をどのように再形成するかを測定するための我々の手法の有効性を実証します。最も重要なこととして、最先端のロバストトレーニング技術が、標準的なトレーニングと比較して、時間の経過とともに劇的に大きな振動を示す、互いに素な不安定方向の学習をもたらすことを示します。我々は、我々の結果が強化学習ポリシーによる意思決定プロセスの基本的な特性を明らかにし、信頼性とロバスト性を備えた深層ニューラルポリシーを構築するのに役立つと信じています。
最近のインターリーブ型大規模マルチモーダルモデル(LMM)のfew-shot学習における成功は、多数の例を用いた文脈内学習(ICL)が新しいタスクの学習において有望であることを示唆しています。しかし、この多数ショットのマルチモーダルICL設定には重要な問題があります。それは、事前学習時に設定されたモデルのコンテキスト長によって根本的に制限されていることです。この問題は、テキストと画像の両方を処理するマルチモーダル領域で特に顕著であり、追加のトークンを必要とします。これにより、ファインチューニングなしで多数のショットをより少ないトークンに圧縮するマルチモーダル手法の必要性が高まっています。本研究では、マルチモーダルタスクベクトル(MTV)—モデルのアテンションヘッドに圧縮された文脈内例のコンパクトな暗黙的表現—を活用することで、LMMがマルチモーダルな多数ショットの文脈内学習を実行できるようにします。具体的には、まずLMM内にそのようなMTVが存在することを実証し、次に抽出されたMTVを活用して、様々な視覚と言語タスクにおける多数ショットの文脈内学習を可能にします。実験結果から、MTVは圧縮されたショットの数に応じて性能がスケールし、推論時の追加のコンテキスト長なしで類似のドメイン外タスクに一般化できることが示唆されています。
大規模言語モデル(LLM)のサービス提供は、ステートレスからステートフルなシステムへと進化し、コンテキストキャッシングや分散推論といった技術を活用しています。これらの最適化により、KVキャッシュの寿命と適用範囲が拡大し、新しいアーキテクチャのアプローチが必要とされています。本論文では、リクエスト間およびリクエスト内の最適化を統合した統一システム「MemServe」を提案します。MemServeは、分散メモリとKVキャッシュを管理する弾力的なメモリプール「MemPool」を導入しています。MemPool APIを利用することで、MemServeは初めてコンテキストキャッシングと分散推論を組み合わせ、グローバルスケジューラによってグローバルプロンプトツリーに基づく局所性を考慮したポリシーを通じてキャッシュの再利用を強化します。テスト結果から、MemServeがジョブ完了時間と初回応答時間を大幅に改善することが示されています。