翻訳付きの日次キュレーションされたAI研究論文
私たちは、ビジョン中心のアプローチで設計されたマルチモーダル大規模言語モデル(MLLM)ファミリーであるCambrian-1を紹介します。より強力な言語モデルはマルチモーダル能力を向上させることができますが、ビジョンコンポーネントの設計選択はしばしば十分に検討されておらず、視覚表現学習研究から切り離されています。このギャップは、現実世界のシナリオにおける正確な感覚的基盤を妨げています。本研究では、LLMと視覚的指示チューニングをインターフェースとして使用し、20以上のビジョンエンコーダに基づく実験を通じて、自己教師あり、強教師あり、またはそれらの組み合わせといったさまざまなモデルとアーキテクチャに関する新たな洞察を提供します。既存のMLLMベンチマークを批判的に検証し、さまざまなタスクからの結果を統合し解釈する際の困難に対処し、新しいビジョン中心のベンチマークであるCV-Benchを導入します。視覚的基盤をさらに改善するために、高解像度のビジョンフィーチャーをLLMと統合しつつトークン数を削減する、動的で空間認識型のコネクタであるSpatial Vision Aggregator(SVA)を提案します。さらに、公開されているソースから高品質な視覚的指示チューニングデータをキュレーションする方法について議論し、データソースのバランスと分布比率の重要性を強調します。全体として、Cambrian-1は最先端の性能を達成するだけでなく、指示チューニングされたMLLMのための包括的でオープンなクックブックとしての役割も果たします。モデルの重み、コード、サポートツール、データセット、詳細な指示チューニングと評価のレシピを提供します。私たちのリリースが、マルチモーダルシステムと視覚表現学習の進歩を刺激し加速することを願っています。
パーソナライズされた画像生成は、個別化されたコンテンツを創造的に生成するその印象的な機能により、人々の日常業務や生活を支援する上で大きな可能性を秘めています。しかし、現在の評価手法は、自動化されているものの人間の判断と乖離しているか、あるいは時間とコストがかかる人間による評価を必要としています。本研究では、先進的なマルチモーダルGPTモデルによって自動化された人間と整合性のあるベンチマーク、DreamBench++を提案します。具体的には、GPTが人間と整合性を持ちつつ自己整合性も保つよう、タスク強化を施したプロンプトを体系的に設計します。さらに、多様な画像とプロンプトから構成される包括的なデータセットを構築します。7つの最新生成モデルをベンチマークすることで、DreamBench++が人間とより整合性の高い評価をもたらし、革新的な知見を通じてコミュニティの発展を促進することを実証します。
大規模言語モデル(LLMs)の進展により、自動化されたソフトウェア工学は大きく強化されてきました。現在のベンチマークでは、LLMsが人間の開発者と同様にさまざまなソフトウェア工学タスクを実行できることが示されていますが、その評価の大部分は短く自己完結したアルゴリズムタスクに限定されています。挑戦的で実用的なプログラミングタスクを解決するためには、データ分析やウェブ開発などの機能を効率的に実装するために、多様な関数呼び出しをツールとして活用する能力が必要です。さらに、複数のツールを使用してタスクを解決するには、複雑な指示を正確に理解するための合成的推論が必要です。これらの特性を両立することは、LLMsにとって大きな課題となり得ます。LLMsが挑戦的で実用的なプログラミングタスクをどの程度解決できるかを評価するために、私たちはBenchというベンチマークを導入しました。このベンチマークでは、139のライブラリと7つのドメインから1,140の細粒度のプログラミングタスクに対して、LLMsが複数の関数呼び出しをツールとして呼び出す能力を試します。LLMsを厳密に評価するために、各プログラミングタスクには平均99%のブランチカバレッジを持つ5.6のテストケースが含まれています。さらに、オリジナルのdocstringを短い指示に自動的に変換する自然言語指向のバリアントであるBenchiを提案します。60のLLMsに対する広範な評価結果は、LLMsが複雑な指示に従って関数呼び出しを正確に使用する能力がまだ不十分であることを示しており、スコアは最大60%で、人間のパフォーマンスである97%を大きく下回っています。これらの結果は、この分野におけるさらなる進展の必要性を強調しています。
検索モデルは、部分的にアノテーションされたデータセットで評価されることが多い。各クエリは少数の関連テキストにマッピングされ、残りのコーパスは無関係であると仮定される。その結果、誤検出を成功裏に検索するモデルは評価においてペナルティを受ける。残念ながら、すべてのクエリに対してすべてのテキストを完全にアノテーションすることはリソース効率的ではない。本研究では、部分的にアノテーションされたデータセットを評価に使用すると、歪んだ結果が得られる可能性があることを示す。我々は、Wikipediaからパッセージ検索評価セットであるD-MERITをキュレーションし、各クエリに対してすべての関連パッセージを含めることを目指した。クエリはグループ(例:「言語学に関するジャーナル」)を記述し、関連パッセージはエンティティがそのグループに属する証拠(例:「Languageは言語学に関するジャーナルである」と示すパッセージ)である。関連パッセージの一部のみがアノテーションされたデータセットで評価を行うと、検索システムのランキングが誤解を招く可能性があり、評価セットに含まれる関連テキストが増えるにつれてランキングが収束することを示す。我々は、このデータセットを評価リソースとして提案し、テキスト検索の評価セットをアノテーションする際に、リソース効率性と信頼性のある評価のバランスを取るための推奨事項として本研究を提示する。
映像シーケンスは貴重な時間的情報を提供しますが、既存の大規模マルチモーダルモデル(LMM)は極めて長い映像を理解する能力に欠けています。多くの研究では、ビジュアルリサンプラーを使用してビジュアルトークンの数を削減することでこの問題に対処しています。一方、本論文では、言語モデルの観点からこの問題にアプローチします。言語バックボーンのコンテキスト長を単純に外挿することで、LMMがビデオトレーニングなしに桁違いに多くのビジュアルトークンを理解できるようにします。この現象を「長文脈転移」と呼び、その特性を慎重に検証します。LMMが視覚モダリティにおける長文脈への一般化能力を効果的に測定するために、言語モデルのNIAHテストにインスパイアされた純粋に合成的な長文脈視覚ベンチマークであるV-NIAH(Visual Needle-In-A-Haystack)を開発しました。提案するLong Video Assistant(LongVA)は、追加の複雑さなしに2000フレームまたは20万以上のビジュアルトークンを処理できます。拡張されたコンテキスト長により、LongVAはより多くの入力フレームを密にサンプリングすることで、7Bスケールのモデルの中でVideo-MMEにおいて最先端の性能を達成します。本研究はhttps://github.com/EvolvingLMMs-Lab/LongVAでオープンソース化されています。
拡散モデルは最近、映像生成において顕著な成果を上げています。しかしながら、その生成される映像は通常、わずかなフレーム数に制限されており、数秒程度のクリップに留まっています。より長い映像を生成する上での主な課題は、単一GPUにおける膨大なメモリ要件と長時間の処理時間にあります。単純な解決策として、複数のGPUに作業を分散させることが考えられますが、これには2つの問題が生じます:(1) すべてのGPUがタイミングやコンテキスト情報を効果的に共有するための通信を確保すること、(2) 短いシーケンスで通常訓練されている既存の映像拡散モデルを、追加の訓練なしでより長い映像を生成するように修正すること。これらの課題に対処するため、本論文では、長尺映像生成のための複数GPUにわたる並列処理を可能にする分散推論パイプライン「Video-Infinity」を紹介します。具体的には、Clip parallelismとDual-scope attentionという2つの整合性のあるメカニズムを提案します。Clip parallelismは、GPU間でのコンテキスト情報の収集と共有を最適化し、通信オーバーヘッドを最小化します。一方、Dual-scope attentionは、時間的な自己注意を調整し、デバイス間でローカルとグローバルのコンテキストを効率的にバランスさせます。これら2つのメカニズムが連携して、作業負荷を分散し、長尺映像の高速生成を可能にします。8基のNvidia 6000 Ada GPU(48G)のセットアップ下で、本手法は約5分間で最大2,300フレームの映像を生成し、従来の手法に比べて100倍の速度で長尺映像生成を実現します。
近年のマルチモーダル大規模言語モデル(MLLM)の進展により、ビデオ理解への能力が拡張されてきた。しかし、これらのモデルはしばしば「幻覚(hallucination)」に悩まされており、実際のビデオの文脈から逸脱した無関係または無意味な内容が生成されることがある。本研究では、大規模ビデオ言語モデル(LVLM)における幻覚検出のための最初の包括的なベンチマークであるVideoHallucerを紹介する。VideoHallucerは幻覚を主に2つのタイプに分類し、さらに詳細な分析のためのサブカテゴリを提供する。これには、オブジェクト関係、時間的、意味的詳細、外部的事実、および外部非事実の幻覚が含まれる。我々は包括的評価のために敵対的な二値ビデオ質問応答(VideoQA)手法を採用し、基本的な質問と幻覚を誘発する質問のペアを戦略的に作成する。VideoHallucerを用いて11のLVLMを評価した結果、以下のことが明らかになった:i)現在のモデルの大多数は幻覚に大きな問題を抱えている;ii)データセットとパラメータのスケーリングは、基本的な視覚的キューや反事実の検出能力を向上させるが、外部的事実の幻覚の検出には限定的な効果しかない;iii)既存のモデルは事実を検出するよりも幻覚を識別する方が得意である。副産物として、これらの分析は我々の自己PEPフレームワークの開発にさらに指示を与え、すべてのモデルアーキテクチャにおいて幻覚耐性が平均5.38%向上した。
人間のフィードバックによる強化学習(RLHF)は、人間の選好に基づいて訓練された報酬モデルを使用し、大規模言語モデル(LLM)の生成が高い報酬を得るように促すことで、モデルを調整します。事前学習された知識の忘却を防ぐため、RLHFは通常KL正則化を組み込みます。これにより、ポリシーが教師ありファインチューニングされた初期状態に近いまま保たれますが、報酬の最適化が妨げられるという課題があります。KLと報酬のトレードオフに対処するため、本論文ではWeight Averaged Rewarded Policies(WARP)という新しい調整戦略を提案します。WARPは、重み空間において3つの異なる段階でポリシーを統合します。まず、KL正則化において、ポリシーの指数移動平均を動的なアンカーとして使用します。次に、球面補間を適用して、独立してファインチューニングされたポリシーを統合し、新たに強化されたポリシーを生成します。最後に、この統合モデルと初期化モデルとの間で線形補間を行い、事前学習からの特徴を回復します。この手順は反復的に適用され、各反復の最終モデルが次の反復の高度な初期化として使用されることで、KLと報酬のパレートフロントが段階的に改善され、固定KL下で優れた報酬を達成します。GEMMAポリシーを用いた実験により、WARPがその品質と調整を向上させ、他のオープンソースLLMを上回ることが検証されました。
大規模言語モデルにおける線形計算量モデルへの関心が高まっているが、そのスケーリング能力は依然として不確かである。本研究では、線形計算量言語モデルのスケーリング則を提示し、その拡張性の基盤を確立する。具体的には、3つの効率的な線形アーキテクチャのスケーリング挙動を検証する。これには、データ非依存の減衰を持つ線形アテンションモデルであるTNL、データ依存の減衰を持つ線形RNNであるHGRN2、減衰を持たない線形アテンションモデルであるcosFormer2が含まれる。また、比較のため、ソフトマックスアテンションのベースラインアーキテクチャとしてLLaMAを採用した。これらのモデルは、3000億トークンのコーパスを用いて7000万から70億パラメータまでの6つのバリエーションで訓練され、検証損失、常識推論、情報検索および生成といった様々な下流タスクにおいて合計1376の中間チェックポイントで評価された。本研究により、既存の線形計算量言語モデルは従来のTransformerベースのモデルと同様のスケーリング能力を示すと同時に、優れた言語能力と知識保持能力を発揮することが明らかになった。
大規模言語モデル(LLM)は自然言語処理に革命をもたらし、多様な商用アプリケーションでの適用範囲を拡大してきた。しかし、これらのモデルの展開は、多言語環境における高い推論時間によって制約を受けている。この課題を緩和するため、本論文では、推測的デコーディングにおけるアシスタントモデルのトレーニング手法を探求する。この手法では、ドラフトモデルがトークンを生成し、その後、ターゲットLLMによってその将来のトークンが検証される。言語固有のドラフトモデルを、特定の事前学習とファインチューニング戦略を通じて最適化することで、従来の方法と比較して推論時間の大幅な高速化がもたらされることを示す。これらのモデルを、推論時間、ドメイン外での高速化、およびGPT-4o評価において、さまざまな言語で検証する。
継続的プレトレーニングは、大規模言語モデル(LLM)を新しいドメインに適応させるための主要なアプローチとしてますます普及しています。このプロセスでは、事前学習済みのLLMを新しいドメインのコーパスで更新し、トレーニング分布をシフトさせます。このシフト中のLLMの挙動を研究するため、継続的プレトレーニングプロセス全体にわたってモデルのパフォーマンスを測定しました。その結果、最初に一時的なパフォーマンスの低下が観察され、その後回復フェーズが続く「安定性ギャップ」と呼ばれる現象が確認されました。これは、新しいクラスを分類する視覚モデルで以前に指摘された現象です。この問題に対処し、固定された計算予算内でLLMのパフォーマンスを向上させるために、以下の3つの効果的な戦略を提案します:(1)適切なサイズのサブセットでLLMを複数エポックにわたって継続的にプレトレーニングすることで、大規模なコーパスを単一エポックでプレトレーニングするよりも迅速にパフォーマンスを回復させる。(2)高品質なサブコーパスのみでLLMをプレトレーニングし、ドメインパフォーマンスを急速に向上させる。(3)プレトレーニングデータに類似したデータ混合を使用して分布ギャップを縮小する。これらの戦略の有効性を検証するため、Llamaファミリーモデルを用いて医療分野の継続的プレトレーニングと指示チューニングに関する様々な実験を実施しました。例えば、提案した戦略により、OpenLlama-3Bモデルの平均医療タスクパフォーマンスが36.2%から40.7%に向上し、元のトレーニング予算の40%のみで達成されました。さらに、一般タスクの平均パフォーマンスも向上し、忘却を引き起こすことなく改善されました。さらに、これらの戦略をLlama-3-8Bモデルに適用しました。その結果得られたモデル、Llama-3-Physicianは、現在のオープンソースモデルの中で最高の医療パフォーマンスを達成し、いくつかの医療ベンチマークではGPT-4と同等またはそれ以上の性能を示しました。モデルはhttps://huggingface.co/YiDuo1999/Llama-3-Physician-8B-Instructで公開しています。
自己回帰型Transformerにおいて、特に拡張されたコンテキストウィンドウ内での長いシーケンスを効率的に処理することは、自己注意機構に内在する二次的な計算複雑性と膨大なKVメモリ要件により、大きな課題となっています。本研究では、これらの計算とメモリの障壁を克服しつつ性能を維持するために設計された新しいスパース注意機構であるSPARSEK Attentionを提案します。我々のアプローチでは、スコアリングネットワークと微分可能なtop-kマスク演算子SPARSEKを統合し、各クエリに対して一定数のKVペアを選択することで、勾配ベースの最適化を可能にします。その結果、SPARSEK Attentionは生成時に線形時間複雑性と一定のメモリフットプリントを提供します。実験結果から、SPARSEK Attentionは従来のスパース注意手法を上回り、特に言語モデリングや下流タスクにおいて、学習と推論の両方で大幅な速度向上をもたらすことが明らかになりました。さらに、我々の手法は、最小限のファインチューニングで事前学習済みの大規模言語モデル(LLM)にシームレスに統合可能であり、多様なアプリケーションにおける長距離依存関係を効果的に管理するための実用的なソリューションを提供します。
我々は、大規模言語モデル(LLM)における不確実性定量化のための、低コストで信頼性の高い手法として、セマンティックエントロピープローブ(SEP)を提案する。LLMの実用化における主要な課題の一つである「幻覚」現象(一見もっともらしいが、事実に反する任意のモデル生成)に対処するため、Farquharら(2024)は最近、複数のモデル生成における意味空間の不確実性を推定することで幻覚を検出可能なセマンティックエントロピー(SE)を提案した。しかし、SE計算に伴う5~10倍の計算コスト増加が実用化を阻害している。この問題を解決するため、我々は単一生成の隠れ状態から直接SEを近似するSEPを提案する。SEPは学習が容易で、テスト時に複数のモデル生成をサンプリングする必要がなく、意味的不確実性定量化のオーバーヘッドをほぼゼロに削減する。我々は、SEPが幻覚検出において高い性能を維持し、モデルの精度を直接予測する従来のプロービング手法よりも分布外データへの汎化性能が優れていることを示す。複数のモデルとタスクにわたる結果から、モデルの隠れ状態がSEを捉えていることが示唆され、アブレーション研究により、これが当てはまるトークン位置とモデル層に関するさらなる洞察が得られた。
大規模言語モデル(LLM)が日常生活に浸透するにつれ、人間の会話を模倣したリアルタイムなインタラクションに対する需要が高まっています。従来のLLM駆動のターンベースチャットシステムでは、システムが応答を生成している間、ユーザーが口頭でシステムとやり取りすることができません。この制限を克服するため、既存のLLMを双方向モデルに適応させ、これらのLLMが出力を生成しながらユーザーの発話を聞き取り、動的に調整して即時のフィードバックを提供できるようにします。具体的には、会話のクエリと応答を複数のタイムスライスに分割し、時分割多重化(TDM)エンコーディング・デコーディング戦略を採用して、これらのスライスを擬似的に同時処理します。さらに、LLMがリアルタイム会話を処理できるようにするため、クエリと応答の交互タイムスライスや、瞬間的なインタラクションにおける典型的なフィードバックタイプをカバーしたファインチューニング用データセットを構築しました。実験結果から、会話のクエリと応答が不完全なスライスに分割されて処理される場合でも、LLMは当データセットでのわずかなファインチューニングステップで、標準ベンチマークにおける元の性能を維持できることが示されています。自動評価と人間による評価の結果、双方向モデルはユーザーとAIのインタラクションをより自然で人間らしくし、従来のLLMと比較してユーザー満足度を大幅に向上させることが明らかになりました。我々の双方向モデルとデータセットは公開予定です。
多言語大規模言語モデル(LLM)の脱毒性化は、その世界的な使用の増加に伴い重要な課題となっている。本研究では、LLMの脱毒性化における選好チューニングのゼロショット・クロスリンガル汎化を探求する。他の安全性タスクではクロスリンガル汎化が限定的であることを示した先行研究とは異なり、英語データのみを用いたDirect Preference Optimization(DPO)トレーニングが、多言語オープンエンド生成における毒性を大幅に低減できることを実証する。例えば、mGPT-1.3Bが毒性のある続きを生成する確率は、トレーニング後、17の異なる言語において46.8%から3.9%に低下した。この結果は、BLOOM、Llama3、Aya-23などの他の多言語LLMにも拡張される。因果的介入や活性化分析といったメカニズム的解釈ツールを用いて、LLMのMLP層が持つ二重多言語性という特性を特定し、これがDPOのクロスリンガル汎化を説明することを明らかにした。最後に、二言語文検索がDPO選好チューニングのクロスリンガル転移性を予測できることを示す。
大規模言語モデル(LLM)はますます強力になっているものの、指示の遵守やコーディングタスクにおけるミスなど、重大だが微妙な弱点を依然として示しています。これらの予期せぬエラーは実用展開において深刻な結果を招く可能性があるため、LLMの限界を体系的に調査することが極めて重要です。従来のベンチマーキング手法では特定のモデルの欠陥を徹底的に特定することができず、手動での検査はコストがかかりスケーラブルではありません。本論文では、AutoDetectという統一フレームワークを導入し、様々なタスクにおけるLLMの弱点を自動的に明らかにします。学生の学習成果を測定する教育評価プロセスに着想を得たAutoDetectは、Examiner、Questioner、Assessorという3つのLLMエージェントで構成されています。これら3つのエージェントの連携により、包括的かつ深い弱点の特定を実現します。本フレームワークは、ChatGPTやClaudeなどの著名なモデルにおいて、30%を超える識別成功率で欠陥を発見することに大きな成功を収めています。さらに重要なことに、これらの特定された弱点は、Self-Instructのような無差別なデータ拡張手法よりも効果的で、特定のモデル改善を導くことができます。本アプローチにより、LlamaシリーズやMistral-7bなどの人気LLMが大幅に強化され、複数のベンチマークで10%以上の性能向上が達成されました。コードとデータはhttps://github.com/thu-coai/AutoDetectで公開されています。
大規模言語モデル(LLMs)が広く使用されているにもかかわらず、次のトークン予測における不確実性をどのように表現し、制御しているかのメカニズムは、ほとんど解明されていない。本研究では、この不確実性に影響を与えると考えられる2つの重要な要素を調査する。1つは最近発見されたエントロピーニューロン、もう1つは我々がトークン頻度ニューロンと名付けた新しい一連の要素である。エントロピーニューロンは、異常に高い重みノルムを特徴とし、最終層の正規化(LayerNorm)スケールに影響を与えてロジットを効果的にスケールダウンさせる。我々の研究では、エントロピーニューロンがアンベッディングのヌル空間に書き込むことで動作し、ロジット自体に直接的な影響を最小限に抑えつつ、残差ストリームのノルムに影響を与えることを示している。我々は、最大70億パラメータまでの様々なモデルにおいてエントロピーニューロンの存在を確認した。一方、本研究で初めて発見し記述したトークン頻度ニューロンは、各トークンのロジットをその対数頻度に比例して増幅または抑制し、出力分布をユニグラム分布に向かわせたり遠ざけたりする。最後に、エントロピーニューロンが帰納的設定(すなわち、繰り返される部分列を検出し続けること)において信頼度を積極的に管理する詳細なケーススタディを提示する。
優れた大規模言語モデル(LLM)とは何か?それは、関連するベンチマークで良好な性能を発揮するモデルであると言える。理想的には、これらのベンチマークは、実際のアプリケーションで求められる能力をある程度有効に測定するものであるべきだ。しかし、モデルが良好な性能を発揮する要因は何か?モデルにその能力を与えるものは何か?本稿では、目標指向的で主体的な文脈において能力を試すために最近導入された、会話ゲームの自己プレイを通じたベンチマークを採用し、パラメータ数やトレーニングの種類といったモデル特性の関数として性能がどのように発展するかを分析する。その結果、パラメータ数と性能の間には明確な関係があるものの、特定のサイズ範囲内でも性能ポイントには広範なばらつきが見られ、これはファインチューニングデータの品質や方法といったトレーニングパラメータによって説明されることがわかった。より実用的な観点からは、アクセス方法による性能の予測不可能性が一定程度存在し、これは未公開のサンプリングパラメータによる可能性がある。また、推論中の少なくとも中程度の重み量子化に対して性能が安定していることは非常に歓迎すべき発見である。
テキストからの高精細な3D衣類合成は、デジタルアバター作成において望まれるものの、依然として困難な課題です。最近のスコア蒸留サンプリング(SDS)を基にした拡散モデルアプローチは新たな可能性を開きましたが、人体と密接に結合しているか、再利用が難しいという問題がありました。本論文では、ClotheDreamerを紹介します。これは、テキストプロンプトから着用可能でプロダクションレディな3D衣類アセットを生成するための3Dガウシアンベースの手法です。我々は、分離最適化を可能にする新しい表現手法であるDisentangled Clothe Gaussian Splatting(DCGS)を提案します。DCGSは、着衣アバターを1つのガウシアンモデルとして表現しながら、身体のガウシアンスプラットを固定します。品質と完全性を向上させるため、双方向SDSを導入して、ポーズ条件を伴う着衣アバターと衣類のRGBDレンダリングをそれぞれ監督し、緩い衣類のための新しい剪定戦略を提案します。また、カスタム衣類テンプレートを入力としてサポートすることも可能です。我々の設計により、合成された3D衣類は仮想試着に容易に適用でき、物理的に正確なアニメーションをサポートします。広範な実験により、本手法の優れた競争力のある性能が示されています。プロジェクトページはhttps://ggxxii.github.io/clothedreamerにあります。
大規模言語モデル(LLM)は、長い入力コンテキストを処理するために特別に訓練された場合でも、入力の中間に位置する関連情報を捉えるのに苦労します。この現象は「lost-in-the-middle(中間喪失)問題」として知られています。本研究では、3つの貢献を行います。第一に、この現象を引き起こす要因を理解することを目指します。その過程で、lost-in-the-middle問題とLLMの内在的な注意バイアスとの関連性を明らかにします。LLMは、入力の最初と最後のトークンに対して、その関連性に関わらず高い注意を向けるU字型の注意バイアスを示します。第二に、この位置バイアスを軽減するためのキャリブレーションメカニズム「found-in-the-middle(中間発見)」を提案します。これにより、モデルは関連性に従って忠実にコンテキストに注意を向けることが可能になり、それが中間に位置する場合でも同様です。第三に、found-in-the-middleが長いコンテキスト内で関連情報を見つける性能を向上させるだけでなく、様々なタスクにおける検索拡張生成(RAG)の性能も向上させ、既存の手法を最大15パーセントポイント上回ることを示します。これらの発見は、LLMの注意バイアスとその潜在的な影響を理解するための今後の研究方向を開拓するものです。
現実世界におけるスケーラブルなロボット学習は、実機ロボットのコストと安全性の問題によって制限されています。さらに、現実世界でロボットの軌道を展開することは時間と労力を要する作業です。本論文では、代替手段としてインタラクティブな実機ロボット動作シミュレータを学習することを提案します。我々は、生成モデルの力を活用して、与えられた初期フレームから開始し、特定の動作軌道を実行するロボットアームの極めてリアルな動画を生成する新しい手法、IRASimを紹介します。本手法の有効性を検証するため、3つの実機ロボットデータセットに基づく新しいベンチマーク、IRASim Benchmarkを作成し、このベンチマークで広範な実験を行いました。結果は、IRASimがすべてのベースラインメソッドを上回り、人間による評価でもより好まれることを示しています。我々は、IRASimが現実世界におけるロボット学習を強化するための効果的でスケーラブルなアプローチとして役立つことを期待しています。生成型実機ロボット動作シミュレータの研究を促進するため、コード、ベンチマーク、およびチェックポイントをhttps://gen-irasim.github.ioでオープンソースとして公開しています。
より汎用的なビデオ理解の一要素としての音声理解は、音響視覚的大規模言語モデル(av-LLM)を用いた重要な研究領域でありながら、十分に研究されていない側面である。本論文では、ビデオ処理のための単一のエンドツーエンドav-LLMであるvideo-SALMONNを提案する。これは、視覚フレームシーケンス、音響イベント、音楽だけでなく、音声も理解することができる。音声理解に必要な細粒度の時間情報を取得しつつ、他のビデオ要素に対して効率的であるために、本論文では、事前学習済みの音響視覚エンコーダとバックボーンの大規模言語モデルを接続するための新しいマルチレゾリューション因果Q-Former(MRC Q-Former)構造を提案する。さらに、フレームやモダリティの支配を避けるために、多様性損失とペアになっていない音響視覚混合トレーニングスキームを含む専用のトレーニング手法を提案する。導入された音声-音響-視覚評価ベンチマークにおいて、video-SALMONNは、ビデオQAタスクで25%以上の絶対精度向上を達成し、人間の音声を含む音響視覚QAタスクでは30%以上の絶対精度向上を達成した。さらに、video-SALMONNは、他のav-LLMでは前例のないタスクにおいて、卓越したビデオ理解と推論能力を示す。我々のトレーニングコードとモデルチェックポイントは、\url{https://github.com/bytedance/SALMONN/}で公開されている。
大規模言語モデル(LLM)の最近の進展にもかかわらず、長文脈を伴うタスクにおけるその性能は最適とは言えません。このような状況で、Few-shot例を用いたIn-Context Learning(ICL)はLLMの性能を向上させる魅力的な解決策となる可能性があります。しかし、長文脈を含むICL例を単純に追加することは、各Few-shot例に対して大幅なトークンオーバーヘッドが生じるだけでなく、デモンストレーションとターゲットクエリ間の文脈の不一致といった課題を引き起こします。本研究では、長文脈QAタスク向けのFew-shot例を文脈の再利用によって自動生成することを提案します。具体的には、長い入力文脈(1-3kトークン)とクエリが与えられた場合、与えられた文脈から追加のクエリ-出力ペアをFew-shot例として生成し、文脈を一度だけ導入します。これにより、デモンストレーションがターゲットクエリと同じ文脈を活用しつつ、プロンプトに追加されるトークン数を最小限に抑えることができます。さらに、各デモンストレーションを強化するために、モデルに明示的に関連する段落を特定するよう指示し、これにより性能が向上するとともに、回答の出典に対する細かい帰属情報を提供します。本手法を複数のLLMに適用し、長文脈を伴う様々なQAデータセットにおいて、特に回答が文脈の中央にある場合に、大幅な改善(モデル全体で平均+23%)を得ました。驚くべきことに、シングルホップのICL例のみを導入しているにもかかわらず、本アプローチを用いることでLLMはマルチホップの長文脈QAにもうまく汎化することができました。
スコア蒸留サンプリングは、拡散モデルを複雑な視覚的生成に統合する上で重要な役割を果たしてきました。しかし、印象的な結果にもかかわらず、モード崩壊や多様性の欠如という課題を抱えています。この課題に対処するため、我々はスコア蒸留の勾配流解釈を活用し、反発的スコア蒸留(Repulsive Score Distillation, RSD)を提案します。特に、多様性を促進する粒子群の反発に基づく変分フレームワークを提案します。粒子間の結合を組み込んだ変分近似を用いることで、反発は単純な正則化として現れ、放射基底カーネルなどを介して測定される粒子間の相対的な類似性に基づいて粒子が相互作用することを可能にします。我々は、制約なしおよび制約ありのサンプリングシナリオの両方に対してRSDを設計しました。制約ありのサンプリングでは、潜在空間における逆問題に焦点を当て、計算、品質、多様性の間で良好なバランスを取る拡張変分定式化を導出します。テキストから画像への生成や逆問題に関する広範な実験を通じて、RSDが最先端の代替手法と比較して、多様性と品質の間で優れたトレードオフを達成することを実証しました。
本報告書では、以下の問いを提示します:OlympicArena(オリンピックレベルの多分野・多モーダルな超知能AIベンチマーク)で測定された場合、これまでで最も知能の高いAIモデルは誰か?特に、最近リリースされたモデルであるClaude-3.5-Sonnet、Gemini-1.5-Pro、およびGPT-4oに焦点を当てます。初めて、オリンピックメダル表のアプローチを用いて、AIモデルをさまざまな分野での総合的なパフォーマンスに基づいてランク付けすることを提案します。実証結果は以下の通りです:(1) Claude-3.5-Sonnetは、GPT-4oを上回る総合的なパフォーマンスを示し、いくつかの科目(物理学、化学、生物学)ではGPT-4oを凌駕しています。(2) Gemini-1.5-ProとGPT-4Vは、GPT-4oとClaude-3.5-Sonnetに続いて連続してランク付けされていますが、明確なパフォーマンスの差があります。(3) オープンソースコミュニティのAIモデルのパフォーマンスは、これらのプロプライエタリモデルに大きく遅れを取っています。(4) これらのモデルのこのベンチマークでのパフォーマンスは十分とは言えず、超知能を達成するまでにはまだ長い道のりがあることを示しています。私たちは、このベンチマークでの最新の強力なモデルのパフォーマンスを継続的に追跡・評価することを約束します(https://github.com/GAIR-NLP/OlympicArenaで利用可能)。