翻訳付きの日次キュレーションされたAI研究論文
大規模言語モデル(LLM)は生成タスクで優れていますが、そのデコーダーのみのアーキテクチャは、追加の表現ファインチューニングが適用されない限り、埋め込みモデルとしての潜在能力を制限することがしばしばあります。これは彼らの汎用性を否定するものでしょうか?この問いに答えるために、我々は専門家の混合(MoE)LLMを詳しく調査します。我々の研究は、MoE LLM内の専門家ルーターが、追加のファインチューニングを必要とせずに、多様な埋め込みに焦点を当てたタスクで有望なパフォーマンスを発揮するオフザシェルフの埋め込みモデルとして機能することを示しています。さらに、我々の包括的な分析は、MoEのルーティング重み(RW)が、広く使用されている埋め込みであるLLMの隠れ状態(HS)と補完関係にあることを示しています。HSに比べて、RWはプロンプトの選択に対してより堅牢であり、高レベルの意味に焦点を当てています。この分析に触発されて、RWとHSを組み合わせたMoEEを提案し、それぞれを単独で使用するよりも優れたパフォーマンスを実現しています。彼らの組み合わせとプロンプト戦略の探求により、RWとHSの類似性の加重和が、それらの連結よりも優れた結果をもたらすことなど、いくつかの新しい洞察が得られました。我々の実験は、Massive Text Embedding Benchmark(MTEB)からの20のデータセットを使用した6つの埋め込みタスクで実施されました。その結果は、追加のファインチューニングを必要とせずに、MoEEがLLMベースの埋め込みにもたらす重要な改善を示しています。
医療用大規模言語モデルを地域言語に適応させることで、医療サービスへのアクセス障壁を減らすことができますが、データの希少性は依然として大きな課題です。特に、リソースが少ない言語にとってはそうです。この課題に対処するために、まず高品質な医療データセットを構築し、その品質を確保するための分析を行います。リソースが制約された言語に効率的にスケーリングするために、多言語対応LLMの汎化能力を活用するために、Mixture of Experts(MoE)のモジュラリティからLLMの内部情報フローを多言語の視点から探求します。技術的には、言語固有の専門家とクロスリンガルなルーティングを採用する新しいMoEルーティング手法を提案します。回路理論に着想を得て、我々のルーティング分析は、情報フローのメカニズムとして「最終的に拡散する」を明らかにしました。初期の層がクロスリンガルな情報フローに集中する一方、後の層は言語固有の分岐を示します。この洞察から、Post-MoEアーキテクチャの開発に直結し、後の層でのみ疎なルーティングを適用しつつ、他の層は密に保ちます。実験結果は、このアプローチが多言語モデルの他言語への汎化を向上させつつ、解釈可能性を維持することを示しています。最後に、50言語のモデルを効率的にスケーリングするために、言語ファミリー専門家の概念を導入し、言語学的先行事項に基づいて言語の数を増やすことなく追加のパラメータを追加します。
大規模言語モデル(LLMs)のコンテキストウィンドウを拡大することは、特に非常に長いテキストを扱うアプリケーションにとって重要な研究分野となっています。本研究では、長いテキストを処理するための新しいトレーニングフリーのフレームワークを提案し、包括的なドキュメント理解を実現するために分割統治戦略を活用しています。提案されたLLMtimesMapReduceフレームワークは、LLMsが読むためにドキュメント全体をいくつかのチャンクに分割し、中間の回答を集約して最終出力を生成します。分割統治長文処理フレームワークの主要な課題は、ドキュメントを分割する際に重要な長距離情報が失われるリスクにあり、これによりモデルがセグメント化されたテキストに基づいて不完全または不正確な回答を生成する可能性があります。中断された長距離情報は、チャンク間依存性とチャンク間の衝突の2つのカテゴリに分類されます。我々は、チャンク間依存性に対処するための構造化された情報プロトコルを設計し、チャンク間の衝突を解決するためのインコンテキスト信頼度補正メカニズムを提案しています。実験結果は、LLMtimesMapReduceが代表的なオープンソースおよび商用の長いコンテキストLLMsを上回ることを示し、さまざまなモデルに適用可能であることを示しています。
Transformerベースの大規模言語モデル(LLM)のスケーリングは、さまざまなタスクで有望なパフォーマンスを示していますが、冗長なアーキテクチャを導入し、実世界での展開に効率の課題をもたらすこともあります。LLMの冗長性について一部認識されているものの、MLPやAttentionレイヤーなどのTransformers内の異なるアーキテクチャにおける冗長性の変動は未だに十分に探求されていません。本研究では、Transformer内の異なるモジュール(ブロック、MLP、Attentionレイヤーを含む)間の冗長性を、類似性に基づくメトリクスを用いて調査しました。驚くべきことに、他のアーキテクチャとの違いを明確にするためのAttentionレイヤーの重要な役割にも関わらず、これらのレイヤーの多くが過剰に類似しており、パフォーマンスを低下させることなく削減できることがわかりました。例えば、Llama-2-70Bは、Attentionレイヤーの半分を削減することで、パフォーマンスの低下わずか2.4\%で48.4\%の高速化を達成しました。さらに、トレーニングプロセス全体でモデルのチェックポイントを追跡することで、Attentionレイヤーの冗長性が固有であり、トレーニング段階を通じて一貫していることを観察しました。さらに、AttentionとMLPレイヤーを同時に削除する方法を提案し、追加のレイヤーをより積極的に削減できるようにしました。例えば、31層(Attention + MLP)を削除した場合、Llama-2-13BはMMLUタスクでパフォーマンスの90\%を維持します。本研究は、将来のネットワークアーキテクチャ設計に対する貴重な示唆を提供します。コードは以下から入手可能:https://github.com/Shwai-He/LLM-Drop.
マルチモーダル大規模言語モデル(MLLMs)は、頻繁に幻覚現象を示しますが、その根本的な理由は依然として理解されていません。本論文では、経験的な分析を行い、MLLMsが最終出力でオブジェクトを誤って生成する一方で、実際には前段のレイヤーで視覚オブジェクトを認識できることを発見しました。言語モデルの強力な知識事前分布が視覚情報を抑制し、幻覚を引き起こす可能性があると推測しています。このことに着想を得て、MLLMs向けの新しい動的補正デコーディング手法(DeCo)を提案します。DeCoは、適切な前段のレイヤーを選択し、知識を最終レイヤーに比例して統合して出力ロジットを調整する方法です。DeCoはモデルに依存せず、さまざまな古典的なデコーディング戦略とシームレスに組み合わせることができ、さまざまなMLLMsに適用できます。DeCoを広く使用されているベンチマークで評価し、基準線と比較して幻覚率を大幅に低減できることを示し、幻覚を緩和する潜在能力を強調します。コードはhttps://github.com/zjunlp/DeCoで入手可能です。
現代の評価技術はエージェントシステムには不十分です。これらのアプローチは、エージェントシステムの段階的な性質を無視して最終的な結果にのみ焦点を当てるか、過剰な手作業を必要とします。この課題に対処するために、私たちはエージェントシステムを評価するためにエージェントジャッジフレームワークを導入します。これは、LLMジャッジフレームワークの有機的な拡張であり、中間フィードバックを可能にするエージェント機能を取り入れたものです。私たちは、コード生成のタスクにエージェントジャッジを適用します。既存のベンチマークの問題を克服し、エージェントジャッジの概念を証明するために、55の現実的な自動AI開発タスクからなる新しいベンチマークであるDevAIを提案します。これには、365の階層的ユーザ要件など、豊富な手動注釈が含まれています。私たちは、エージェントジャッジを使用して人気のある3つのエージェントシステムをベンチマークし、LLMジャッジを大幅に上回り、人間の評価基準と同様に信頼性があります。全体として、私たちは、エージェントジャッジが現代のエージェントシステムにとって具体的な前進を示すものと信じています。これにより、動的かつスケーラブルな自己改善に必要な豊富で信頼性の高い報酬信号が提供されます。
ビデオ生成モデルの効果は、そのトレーニングデータセットの品質に大きく依存しています。過去の多くのビデオ生成モデルは短いビデオクリップでトレーニングされてきましたが、最近では長いビデオに直接トレーニングされる長いビデオ生成モデルに対する関心が高まっています。ただし、そのような高品質な長いビデオが不足しているため、長いビデオ生成の進展が妨げられています。長いビデオ生成の研究を促進するために、長いビデオ生成モデルのトレーニングに不可欠な4つの主要な特徴を備えた新しいデータセットが必要です:(1) 少なくとも10秒をカバーする長いビデオ、(2) カットのない長いテイクのビデオ、(3) 大きな動きと多様な内容、および(4) 時間的に密なキャプション。これを実現するために、高品質な長いテイクのビデオを選択し、時間的に密なキャプションを生成する新しいパイプラインを紹介します。具体的には、シーンカット、ダイナミック度、および意味レベルの品質を定量的に評価する一連のメトリクスを定義し、これにより大量のソースビデオから高品質な長いテイクのビデオをフィルタリングします。その後、階層的なビデオキャプションパイプラインを開発して、長いビデオに時間的に密なキャプションを注釈付けします。このパイプラインを使用して、10秒以上をカバーし、時間的に密なキャプションで注釈付けされた200万本の長いテイクビデオからなる初の長いビデオデータセットであるLVD-2Mをキュレーションします。さらに、LVD-2Mの効果を検証するために、ビデオ生成モデルを微調整してダイナミックな動きを持つ長いビデオを生成します。私たちの研究が将来の長いビデオ生成の研究に大きく貢献すると信じています。
大規模言語モデル(LLMs)は、推論および意思決定能力において著しい改善を示し、ユーザーとの自然な会話を行うことができます。最近、多くのツール利用ベンチマークデータセットが提案されています。ただし、既存のデータセットには以下の制限があります:(1)評価シナリオが不十分(例:限られたツール利用シーンのみをカバー)。 (2)評価コストが高額(例:GPT APIのコスト)。これらの制限に対処するために、本研究では、大規模言語モデル向けの多粒度ツール利用ベンチマークであるMTU-Benchを提案します。 「多粒度」の特性により、当社のMTU-Benchは、5つのツール利用シーン(すなわち、単一ターンと単一ツール、単一ターンと複数ツール、複数ターンと単一ツール、複数ターンと複数ツール、および分布外タスク)をカバーしています。さらに、当社のMTU-Benchのすべての評価メトリクスは、GPTや人間の評価メトリクスを使用せず、予測結果とグラウンドトゥルースに基づいています。さらに、当社のMTU-Benchは、既存の高品質データセットを変換して実世界のツール利用シナリオをシミュレートすることで収集されており、既存のLLMsのツール利用能力を向上させるための指示データセットであるMTU-Instructデータも提案しています。包括的な実験結果は、当社のMTU-Benchの効果を示しています。コードとデータは、https://github.com/MTU-Bench-Team/MTU-Bench.git で公開されます。
近年、最も人気が高く、求められている生成モデルの1つである拡散モデルは、画像合成、ビデオ生成、分子設計、3Dシーンレンダリング、マルチモーダル生成など、さまざまな生成タスクで優れた利点を示し、多くの研究者の関心を引き、彼らの密な理論的原則と信頼性の高い応用実践に依存しています。これらの最近の拡散モデルに関する顕著な成功は、進歩的な設計原則と効率的なアーキテクチャ、トレーニング、推論、展開手法から主に得られています。ただし、これらの原則と実践を総括し、拡散モデルの迅速な理解と適用を支援する包括的で詳細なレビューはまだ存在していません。この調査では、既存の取り組みに新しい効率志向の視点を提供し、主にアーキテクチャ設計、モデルトレーニング、高速推論、信頼性の高い展開における深い原則と効率的な実践に焦点を当て、読者にとってわかりやすい方法で、さらなる理論的研究、アルゴリズムの移行、新しいシナリオでのモデル適用をガイドします。
大規模言語モデル(LLMs)はツール学習と組み合わせることで、実世界の応用において印象的な結果を得ています。ツール学習中、LLMsは入れ子になった順序で複数のツールを呼び出すことがあり、後続のツール呼び出しでは前者の応答を入力パラメータとして利用することがあります。しかしながら、現在の研究では、入れ子のツール学習能力に関する調査がまだ不十分であり、既存のベンチマークには関連するデータインスタンスが不足しています。この問題に対処するために、我々は現在の包括的な入れ子ツール学習評価のギャップを埋めるために、NesToolsを導入します。NesToolsには、異なる入れ子構造を持つ大規模な入れ子ツール呼び出しを構築するための革新的な自動データ生成方法が含まれています。手動でのレビューと改良を経て、データセットは高品質であり、実世界のシナリオに密接に沿っています。そのため、NesToolsはLLMsの入れ子ツール学習能力を評価する新しいベンチマークとして機能することができます。我々は22のLLMsで広範な実験を行い、NesToolsを用いた詳細な分析を提供し、現在のLLMsは依然として複雑な入れ子ツール学習タスクに苦しんでいることを示しています。
既存の研究では、Code GenAIに関連するセキュリティリスクを強調するために複数のベンチマークが確立されています。これらのリスクは主に、安全でないコードを生成する可能性(安全でないコーディング)とサイバー攻撃(サイバー攻撃の有用性)に反映されます。これらのベンチマークは大きな進展を遂げていますが、さらなる改善の機会が残されています。例えば、現在の多くのベンチマークは、攻撃提案を行う能力よりも実行可能な攻撃を生成する能力に焦点を当てている傾向があります。さらに、ほとんどのベンチマークは静的評価メトリクスに大きく依存しており、パッシングテストケースなどの動的メトリクスほど正確でない可能性があります。一方、専門家によって検証されたベンチマークは、高品質のデータを提供する一方で、しばしば規模が小さいという特徴があります。これらのギャップに対処するために、私たちはCode GenAIのリスクのための統一された包括的な評価プラットフォームであるSecCodePLTを開発しました。安全でないコードについては、専門家と自動生成を組み合わせたデータ作成の新しい方法論を導入しています。この方法論により、データの品質を確保しつつ大規模な生成が可能となります。また、サンプルをテストケースに関連付けてコードに関連する動的評価を実施しています。サイバー攻撃の有用性については、実環境を設定し、モデルに実際の攻撃を生成させるためのサンプルを構築し、環境内で動的メトリクスを使用しています。私たちは広範囲な実験を行い、SecCodePLTがセキュリティの関連性において最先端のベンチマークであるCyberSecEvalを上回ることを示しています。さらに、SecCodePLTは、安全でないコーディングとサイバー攻撃の有用性における最先端モデルのセキュリティリスクをよりよく特定します。最後に、SecCodePLTを最先端のコードエージェントであるCursorに適用し、この高度なコーディングエージェントにおいて非自明なセキュリティリスクを初めて特定します。
心エコー検査は、心臓の構造と機能を評価するために超音波ビデオデータを取得する、最も広く使用されている心臓画像診断法です。心エコー検査における人工知能(AI)は、手作業のタスクを効率化し、再現性と精度を向上させる潜在能力を持っています。しかし、ほとんどの心エコー検査AIモデルは、フル検査中にキャプチャされた複数のビューからの補完情報を統合しない単一ビュー、単一タスクのシステムであり、そのため性能と応用範囲が限定されています。この問題に対処するために、私たちはEchoPrimeを導入します。これは、1,200万以上のビデオレポートペアでトレーニングされたマルチビュー、ビュー情報を考慮に入れた、ビデオベースのビジョン言語基盤モデルです。EchoPrimeは、全体的な心エコー検査でのすべての標準ビューのための統一された埋め込みモデルを訓練するために対比学習を使用し、希少および一般的な疾患や診断の表現を行います。その後、EchoPrimeはビュー分類とビュー情報を考慮に入れた解剖学的注意モデルを利用して、心エコー画像のビューと解剖学的構造の関係を正確にマッピングするためにビデオ固有の解釈に重みを付けます。リトリーバル増強解釈を用いて、EchoPrimeは包括的な研究でのすべての心エコー検査ビデオからの情報を統合し、包括的な臨床心エコー検査解釈を行います。2つの独立した医療システムのデータセットでは、EchoPrimeは心臓の形態と機能の23の異なるベンチマークで最先端のパフォーマンスを達成し、タスク固有のアプローチや以前の基盤モデルのパフォーマンスを上回ります。厳格な臨床評価に続いて、EchoPrimeは包括的な心エコー検査の自動初期評価において医師を支援することができます。
私たちは、複数の視点から照らされた入力画像からのリアルタイムで高品質な新しいライティングとビューの合成のために、空間と角度のガウスベースの表現とトリプルスプラッティングプロセスを提案します。複雑な外観を記述するために、各空間ガウスに対して効果的な反射関数としてランベルトと角度ガウスの混合物を採用します。セルフシャドウを生成するために、すべての空間ガウスを光源に向かってスプラットし、影の値を取得し、さらに小さなマルチレイヤーパーセプトロンによって洗練します。他の効果(グローバルイルミネーションなど)を補償するために、別のネットワークが訓練され、空間ガウスごとのRGBタプルを計算して追加します。私たちの表現の効果は、幅広いジオメトリ(固体からフワフワまで)や外観(透明から異方性まで)を持つ30のサンプルで示され、合成/再構築されたオブジェクトのレンダリングされた画像、手持ちのカメラとフラッシュで撮影された写真、またはプロのライトステージから取得したデータの異なる形式を使用しています。1つの商用GPUでのトレーニング時間は40〜70分、レンダリング速度は90 fpsを達成しています。品質/パフォーマンスの観点で、当社の結果は最先端の技術と有利な比較ができます。当社のコードとデータはhttps://GSrelight.github.io/で公開されています。
CVとNLPの最近の進歩は、従来の理論が大きなネットワークが過学習しやすいと示唆しているにも関わらず、ネットワークパラメータの数を拡大することによって主に推進されています。これらの大規模ネットワークは、シンプルさを促すコンポーネントを統合することで過学習を回避し、モデルを単純で汎用性のある解に導きます。しかし、深層強化学習では、ネットワークの設計と拡大についてはあまり探求されていませんでした。この機会に着想を得て、我々はSimBaを提案します。これは、深層強化学習においてパラメータを拡大するためにシンプルさのバイアスを注入するよう設計されたアーキテクチャです。SimBaには、次の3つのコンポーネントが含まれています:(i) 実行統計を用いて入力を標準化する観測正規化層、(ii) 入力から出力への線形経路を提供する残差フィードフォワードブロック、および(iii) 特徴の大きさを制御する層正規化。SimBaを用いてパラメータを拡大することで、オフポリシー、オンポリシー、および教師なし手法を含むさまざまな深層強化学習アルゴリズムのサンプル効率が一貫して向上します。さらに、SACにSimBaアーキテクチャを統合するだけで、DMC、MyoSuite、およびHumanoidBenchを通じて高い計算効率で最先端の深層強化学習手法に匹敵するかそれを上回る結果が得られます。これらの結果は、SimBaの幅広い応用可能性と異なるRLアルゴリズムや環境における効果を示しています。
多様で動的な環境で運用する汎用性の高いロボティックシステムへの需要の増加は、大規模なクロスエンボディメントデータコーパスを活用して広範な適応性と高度な推論を促進する一般化ポリシーの重要性を強調しています。ただし、一般化ポリシーは非効率な推論と高コストなトレーニングに苦しむ可能性があります。それに対し、専門家ポリシーは特定のドメインデータに適したものであり、効率的なタスクレベルの精度を発揮します。しかし、広範囲のアプリケーションに対する一般化能力が不足しています。これらの観察に触発され、我々はRoboDualを紹介します。これは、一般化ポリシーと専門家ポリシーの長所を補完する相乗効果のあるデュアルシステムです。マルチステップアクション展開向けの拡散トランスフォーマーベースの専門家が、高レベルなタスク理解と視覚言語アクション(VLA)ベースの一般化の離散化されたアクション出力に絶妙に適合するように設計されています。OpenVLAと比較して、RoboDualは、専門家ポリシーを導入することで、わずか20Mの訓練可能なパラメータで実世界の設定で26.7%の改善とCALVINで12%の利益を達成します。デモデータのわずか5%で強力なパフォーマンスを維持し、実世界展開で3.8倍の制御頻度を可能にします。コードは公開されます。プロジェクトページは次の場所にあります:https://opendrivelab.com/RoboDual/
相互強化効果(MRE)は、テキスト分類タスクにおける単語レベルとテキストレベルの分類の相乗効果を調査するものです。この効果は、両分類レベルの性能が相互に向上する可能性があるという仮説を立てています。しかしながら、このメカニズムは以前の研究で適切に実証されたり説明されたりしていませんでした。このギャップを埋めるために、私たちは経験的実験を用いてMRE理論を観察し裏付けることに取り組んでいます。21のMREミックスデータセットでの実験では、モデル内にMREの存在とその影響を明らかにしました。具体的には、ファインチューニングを用いた比較実験を実施しました。比較実験の結果から、MREの存在が裏付けられました。さらに、MREの適用範囲を拡大し、プロンプト学習に活用し、単語レベルの情報を口頭表現として用いて、モデルがテキストレベルの分類ラベルをより強化する実験を行いました。最終実験では、21のMREミックスデータセットのうち18でF1スコアがベースラインを大幅に上回り、単語レベルの情報が言語モデルがテキスト全体を理解するのを強化するという考えをさらに裏付けました。
最近のアプローチでは、SAMなどの強力なインタラクティブセグメンテーションモデルを、インタラクティブマッティングに適応させ、合成マッティングデータセットに基づいてモデルを微調整しようとしています。しかし、合成データでトレーニングされたモデルは、複雑な遮蔽シーンに一般化できません。私たちはこの課題に取り組み、COCOデータセットに基づいた新しいマッティングデータセット、COCO-Mattingを提案します。具体的には、COCO-Mattingの構築には、アクセサリー融合とマスクからマットへの変換が含まれます。これにより、COCOから実世界の複雑な画像を選択し、セマンティックセグメンテーションマスクをマッティングラベルに変換します。構築されたCOCO-Mattingには、複雑な自然シナリオでの38,251個の人物インスタンスレベルのアルファマットが豊富に含まれています。さらに、既存のSAMベースのマッティング手法は、凍結したSAMから中間特徴とマスクを抽出し、エンドツーエンドのマッティング損失によって軽量なマッティングデコーダーのみをトレーニングしますが、事前にトレーニングされたSAMの潜在能力を十分に活用していません。そのため、私たちはネットワークアーキテクチャとトレーニング目標を刷新するSEMatを提案します。ネットワークアーキテクチャでは、提案された特徴整列トランスフォーマーが微細なエッジと透明性の特徴を抽出することを学習します。提案されたマット整列デコーダーは、マッティング固有のオブジェクトをセグメント化し、粗いマスクを高精度のマットに変換します。トレーニング目標では、提案された正則化とトリマップ損失は、事前にトレーニングされたモデルからの事前情報を保持し、マスクデコーダーから抽出されたマッティングロジットにトリマップベースのセマンティック情報を含めるようにします。7つの異なるデータセットを対象とした幅広い実験により、当社の手法の優れたパフォーマンスが証明され、インタラクティブな自然画像のマッティングにおける有効性が示されています。当社のコード、モデル、データセットは、https://github.com/XiaRho/SEMat でオープンソース化されています。
大規模なマルチモーダルコレクションから情報を効率的に取得し、統合することは重要な課題となっています。ただし、既存のビデオ検索データセットは範囲の制限に苦しんでおり、主に記述的であるが曖昧なクエリを専門的に編集された英語中心の小規模なビデオコレクションと一致させることに焦点を当てています。このギャップを埋めるために、218,000以上のニュースビデオと特定の世界の出来事を対象とした3,906のクエリを備えた大規模な、多言語対応のイベント中心のビデオ検索ベンチマーク、MultiVENT 2.0を紹介します。これらのクエリは、ビデオの視覚コンテンツ、音声、埋め込みテキスト、およびテキストメタデータに含まれる情報を特に対象としており、システムがこれらのソースをすべて活用して課題に成功する必要があります。予備結果によると、最先端のビジョン言語モデルはこの課題に大きな苦労をしており、代替アプローチは有望な結果を示していますが、まだこの問題を十分に対処するには不十分です。これらの知見は、より堅牢なマルチモーダル検索システムの必要性を強調しており、効果的なビデオ検索はマルチモーダルコンテンツ理解および生成タスクに向けた重要な段階であることを示しています。