翻訳付きの日次キュレーションされたAI研究論文
Movie Genは、異なるアスペクト比と同期オーディオを備えた高品質な1080p HDビデオを生成する基盤モデルのキャストを提供します。また、正確な指示に基づくビデオ編集やユーザーの画像に基づく個人用ビデオの生成などの追加機能も示します。当社のモデルは、複数のタスクにおいて新たな最先端を確立しています:テキストからビデオへの合成、ビデオの個人化、ビデオ編集、ビデオからオーディオの生成、およびテキストからオーディオの生成。当社の最大のビデオ生成モデルは、73Kビデオトークンの最大コンテキスト長で訓練された30Bパラメータのトランスフォーマーであり、16フレーム/秒で生成された16秒のビデオに相当します。我々は、事前トレーニングデータ、モデルサイズ、およびトレーニングコンピューティングのスケーリングの恩恵を受けるためのアーキテクチャ、潜在空間、トレーニング目標とレシピ、データキュレーション、評価プロトコル、並列化技術、および推論最適化に関する複数の技術革新と簡素化を示します。本論文がメディア生成モデルの進歩と革新を加速させるための研究コミュニティに役立つことを願っています。本論文のすべてのビデオは、https://go.fb.me/MovieGenResearchVideos でご覧いただけます。
異なるモダリティを認識および生成することは、AIモデルが現実世界の信号から効果的に学習し、関わるために重要であり、それらの開発のために信頼性のある評価が必要です。現在の評価における2つの主要な問題を特定します:(1)異なるコミュニティによって形成された異なるプロトコルと成熟度レベルによって形成された一貫性のない基準;および(2)重要なクエリ、評価、および一般化のバイアス。これらに対処するために、我々はMixEval-Xを導入します。これは、入力および出力のモダリティ全体にわたる評価を最適化し標準化するために設計された初のany-to-any実世界ベンチマークです。我々は、マルチモーダルベンチマークの混合と適応-補正パイプラインを提案し、実世界のタスク分布を再構築して、評価が実世界のユースケースに効果的に一般化されることを確認します。包括的なメタ評価により、我々のアプローチがベンチマークサンプルを実世界のタスク分布と効果的に整合させ、モデルのランキングがクラウドソーシングされた実世界の評価と強く相関することを示します(最大0.98)。我々は、既存のモデルや組織を再ランク付けするための包括的なリーダーボードを提供し、マルチモーダル評価の理解を向上させ、将来の研究に情報提供を行います。
LLMベースの判定者は、人間の評価に代わるスケーラブルな選択肢として登場し、モデルの評価、比較、改善にますます使用されています。ただし、LLMベースの判定者自体の信頼性はほとんど検証されていません。LLMがより高度になるにつれ、その応答はより洗練され、それらを評価するためにより強力な判定者が必要とされます。既存のベンチマークは主に判定者が人間の好みと一致するかどうかに焦点を当てていますが、クラウドソーシングされた人間の好みが事実と論理の正確性の指標として適切でないようなより難しいタスクを考慮することができません。この課題に対処するために、我々はLLMベースの判定者を客観的に評価するための新しい評価フレームワークを提案します。このフレームワークに基づいて、知識、推論、数学、コーディングを含む難解な応答ペアでLLMベースの判定者を評価するためのベンチマークであるJudgeBenchを提案します。JudgeBenchは、既存の難しいデータセットを難解な応答ペアに変換し、客観的な正確性を反映した優先度ラベルを持つ新しいパイプラインを活用しています。提示された判定者、ファインチューニングされた判定者、マルチエージェント判定者、報酬モデルのコレクションに対する包括的な評価により、JudgeBenchは以前のベンチマークよりもはるかに大きな課題を提供し、多くの強力なモデル(例:GPT-4o)がランダムな推測よりも僅かに優れた結果を示すことが明らかになりました。全体として、JudgeBenchは、ますます高度になるLLMベースの判定者を評価するための信頼性のあるプラットフォームを提供します。データとコードはhttps://github.com/ScalerLab/JudgeBench で入手可能です。
ビジョンにおける自己回帰モデルのスケーリングは、大規模言語モデルほど有益ではないことが証明されていません。本研究では、テキストから画像を生成する文脈でこのスケーリング問題を調査し、モデルが離散的または連続的なトークンを使用しているか、およびトークンがランダムまたは固定のラスタ順序で生成されているかに焦点を当てます。BERTやGPTのようなトランスフォーマーアーキテクチャを使用しています。実験結果によると、すべてのモデルは検証損失の観点から効果的にスケーリングされていますが、評価パフォーマンス(FID、GenEvalスコア、および視覚品質によって測定される)は異なる傾向を示しています。連続的なトークンに基づくモデルは、離散的なトークンを使用するモデルよりもはるかに優れた視覚品質を達成しています。さらに、生成順序と注意メカニズムはGenEvalスコアに大きく影響を与えます。ランダム順序モデルは、ラスタ順序モデルと比較して顕著に優れたGenEvalスコアを達成しています。これらの知見に触発され、我々はFluidという連続的なトークン上でランダム順序の自己回帰モデルを訓練しました。Fluid 10.5Bモデルは、MS-COCO 30Kにおける新たなゼロショットFIDの最高記録である6.16と、GenEvalベンチマーク全体スコア0.69を達成しました。我々の知見と結果が、将来の取り組みがビジョンと言語モデルの間のスケーリングのギャップをさらに埋めることを奨励することを願っています。
本論文では、Janusという自己回帰フレームワークを紹介し、マルチモーダルな理解と生成を統合します。従来の研究では、Chameleonなどのように両方のタスクに単一のビジュアルエンコーダが依存することが一般的でした。しかし、マルチモーダルな理解と生成に必要な情報の粒度が異なるため、このアプローチは特にマルチモーダルな理解において最適な性能を発揮しないことがあります。この問題に対処するために、ビジュアルエンコーディングを個々の経路に分離し、それでも単一の統一トランスフォーマーアーキテクチャを利用して処理します。この分離により、ビジュアルエンコーダの理解と生成における役割の衝突が緩和されるだけでなく、フレームワークの柔軟性が向上します。例えば、マルチモーダルな理解と生成のコンポーネントは、それぞれ最適なエンコーディング方法を独立して選択できます。実験の結果、Janusは以前の統一モデルを凌駕し、タスク固有のモデルの性能に匹敵またはそれを上回ることが示されました。Janusのシンプルさ、高い柔軟性、効果的な性能は、次世代の統一マルチモーダルモデルの有力な候補となります。
大規模言語モデル(LLMs)の成功により、音声およびオーディオデータを統合し、テキストおよび非テキスト入力の両方を処理できる汎用基礎モデルを作成することを目指す取り組みが促進されています。GPT-4oなどの最近の進歩は、エンドツーエンドの音声LLMsの可能性を示し、非意味情報と世界知識を保持してより深い音声理解を可能にします。音声LLMsの開発を指針とするために、基本的な自動音声認識(ASR)から抽象的な音響知識と非意味情報を統合し、複雑なタスクに対応できる超人的モデルまでの5段階のロードマップを提案します。さらに、SAGIベンチマークという基準を設計し、これら5つの段階のさまざまなタスクにおける重要な側面を標準化し、抽象的な音響知識の使用や機能の完全性における課題を明らかにします。我々の調査結果は、パラ言語的手がかりや抽象的な音響知識の取り扱いにおけるギャップを明らかにし、将来の方向性を提案します。本論文は、音声LLMsの進化のためのロードマップを概説し、評価のためのベンチマークを紹介し、現在の制約と潜在性に関する重要な洞察を提供します。
現在のモバイルアシスタントは、システムAPIへの依存や制限された理解力と意思決定能力による複雑なユーザー指示や多様なインターフェースへの対応に苦労しています。これらの課題に対処するために、私たちは、理解力と計画能力を高める、洗練された2レベルのエージェントアーキテクチャによって動作する新しいモバイルフォンエージェントであるMobAを提案します。高レベルのグローバルエージェント(GA)は、ユーザーコマンドの理解、履歴メモリの追跡、およびタスクの計画を担当します。低レベルのローカルエージェント(LA)は、GAからのサブタスクとメモによって誘導された関数呼び出し形式の詳細なアクションを予測します。反射モジュールを統合することで、効率的なタスク完了が可能となり、以前に見たことのない複雑なタスクに対処できるようになります。MobAは、実生活での評価において、タスクの実行効率と完了率の著しい改善を示し、MLLMによって強化されたモバイルアシスタントの潜在能力を強調しています。
ビジョン言語モデル(VLMs)は、特に英語以外の言語や代表的でない文化的コンテキストにおいて、文化固有の知識に苦労することがよくあります。このような知識の理解を評価するために、私たちはWorldCuisinesを導入します。これは、多言語および多文化に根ざした視覚的言語理解のための大規模なベンチマークです。このベンチマークには、30の言語や方言を網羅し、9つの言語ファミリーを横断し、100万以上のデータポイントを特徴とする、視覚的質問応答(VQA)データセットが含まれており、これまでで最大の多文化VQAベンチマークとなっています。このベンチマークには、料理名とその起源を特定するためのタスクが含まれています。私たちは、評価用データセットを2つのサイズ(12,000件および60,000件)と、トレーニングデータセット(100万件)とともに提供しています。私たちの調査結果によると、VLMsは正しい場所の文脈においては性能が向上しますが、敵対的な文脈や特定の地域料理や言語を予測する際に苦労しています。将来の研究を支援するために、アノテーションされた食品エントリと画像を含む知識ベースとVQAデータを公開しています。
テキスト豊富なビジュアル理解、つまり、密なテキストコンテンツが視覚情報と統合された環境を処理する能力は、多様なモーダル大規模言語モデル(MLLMs)が構造化された環境と効果的にやり取りするために重要です。この能力を向上させるために、我々は、テキストベースの大規模言語モデル(LLMs)を用いて、WebページのUIから一般的な多様な指示を合成することを提案します。直接的な視覚入力がないにもかかわらず、テキストベースのLLMsは、Webページのアクセシビリティツリーから構造化されたテキスト表現を処理することができます。これらの指示は、UIのスクリーンショットとペアになって、多様なモデルを訓練するために使用されます。我々は、MultiUIというデータセットを紹介します。このデータセットには、100万のウェブサイトから730万のサンプルが含まれており、多様な多様なタスクとUIレイアウトがカバーされています。MultiUIで訓練されたモデルは、Web UIタスクにおいてのみ優れており、VisualWebBenchで最大48%の改善を達成し、WebエージェントデータセットMind2Webにおいて行動の正確性が19.1%向上しています。さらに、これらのモデルは、Web UIタスクだけでなく、非Web UIタスクや文書理解、OCR、チャート解釈などの非UIドメインにも驚くほど汎用的に適用されます。これらの結果は、様々なシナリオでテキスト豊かなビジュアル理解を進化させるためにWeb UIデータが広範囲に適用可能であることを示しています。
最近のカスタマイズされたビデオ生成の進歩により、ユーザーは特定の主題と動きの軌跡に合わせたビデオを作成することが可能になりました。しかしながら、既存の手法はしばしば複雑なテスト時の微調整が必要であり、主題の学習と動きの制御のバランスが難しいため、実世界での応用が制限されています。本論文では、1枚の画像とバウンディングボックスのシーケンスによってそれぞれ誘導され、テスト時の微調整を必要とせずに特定の主題と動きの軌跡を持つビデオを生成することができるゼロショットビデオカスタマイゼーションフレームワークであるDreamVideo-2を提案します。具体的には、モデルの固有の能力を活用するリファレンスアテンションを導入し、バウンディングボックスから導かれるボックスマスクの堅牢な動き信号を完全に活用するためのマスクガイドされた動きモジュールを考案します。これら2つのコンポーネントがそれぞれ意図した機能を果たす一方で、実験的に動きの制御が主題の学習を支配する傾向があることを観察します。この問題に対処するために、次の2つの重要な設計を提案します:1) マスク付きリファレンスアテンション、つまり、リファレンスアテンションに混合された潜在的なマスクモデリングスキームを統合して、所望の位置で主題表現を強化する方法、および2) リウェイトされた拡散損失、つまり、バウンディングボックス内外の領域の寄与を区別して、主題と動きの制御のバランスを確保する方法。新しく収集されたデータセットでの広範な実験結果は、DreamVideo-2が主題のカスタマイゼーションと動きの制御の両方で最先端の手法を凌駕していることを示しています。データセット、コード、およびモデルは公に利用可能になります。
人工知能(AI)は、特に疾病の診断や治療計画において、医療分野で著しい潜在能力を示しています。最近の医療用大規模ビジョン言語モデル(Med-LVLMs)の進歩により、対話型診断ツールの新たな可能性が開かれました。しかしながら、これらのモデルはしばしば事実の幻覚に苦しんでおり、これが誤った診断につながる可能性があります。ファインチューニングと検索増強生成(RAG)が、これらの問題に対処する手法として登場しています。しかし、高品質なデータの量やトレーニングデータと展開データとの分布シフトが、ファインチューニング手法の適用を制限しています。RAGは軽量で効果的ですが、既存のRAGベースのアプローチは、異なる医療領域に対して十分に汎用的ではなく、モダリティ間やモデルとグラウンドトゥルースとの間で整合性の問題を引き起こす可能性があります。本論文では、Med-LVLMsの事実性を向上させるために設計された多目的マルチモーダルRAGシステム、MMed-RAGを提案します。当該手法は、ドメインに精通した検索メカニズム、適応的な検索されたコンテキストの選択方法、証明可能なRAGベースの優先ファインチューニング戦略を導入しています。これらの革新により、RAGプロセスは十分に汎用的かつ信頼性があり、検索されたコンテキストを導入する際の整合性が大幅に向上します。医療VQAおよびレポート生成における5つの医療データセット(放射線学、眼科学、病理学を含む)を対象とした実験結果は、MMed-RAGがMed-LVLMsの事実的な正確性を平均43.8%向上させることを示しています。当該データとコードは、https://github.com/richard-peng-xia/MMed-RAG で入手可能です。
本研究では、Transformerモデルの中核であるマルチヘッド注意機構をアップグレードし、効率を向上させつつ、以前の精度レベルを維持または上回るようにしました。マルチヘッド注意は、総和形式で表現できることを示します。すべての注意ヘッドが同等に重要でないという洞察に基づき、私たちはMixture-of-Experts(MoE)機構の専門家として注意ヘッドを扱う新しいアーキテクチャであるMixture-of-Head attention(MoH)を提案します。MoHには2つの重要な利点があります。まず、MoHは各トークンが適切な注意ヘッドを選択できるようにし、推論効率を向上させるだけでなく、精度を損なうことなくパラメータ数を増やすことなくもします。第二に、MoHはマルチヘッド注意の標準的な総和を重み付き総和に置き換え、注意機構に柔軟性をもたらし、追加の性能ポテンシャルを引き出します。ViT、DiT、LLMsに関する幅広い実験は、MoHが注目すべき注意ヘッドのみを使用してマルチヘッド注意を上回ることを示しています。さらに、LLaMA3-8Bなどの事前学習されたマルチヘッド注意モデルを、MoHモデルにさらに調整することができることを示しています。特に、MoH-LLaMA3-8Bは、注意ヘッドの75%のみを利用して、14のベンチマーク全体で64.0%の平均精度を達成し、LLaMA3-8Bを2.4%上回ります。提案されたMoHは、マルチヘッド注意の有望な代替手段であり、高度で効率的な注意ベースのモデルの開発の強力な基盤を提供すると考えています。
大規模言語モデル(LLMs)の評価はコストがかかります:さまざまなタスクの大規模ベンチマークでのLLMの出力の生成と検証が必要です。本論文では、LLMsのベンチマークに使用されるタスクを効率的に削減する方法を調査し、評価品質に影響を与えないようにします。私たちの研究では、タスクの移転性と関連性が、施設配置関数を最適化することによって、最も代表的なタスクのサブセットを特定するための重要な情報を提供することが明らかになりました。私たちは、インコンテキスト学習(ICL)を通じて、2つのタスク間の移転性を推定するための実用的に効率的なメトリックを提案します。ペアワイズな移転性を分析することで、現代のLLMベンチマーク(例:MMLUまたはFLAN)のタスクを5%に削減し、元のベンチマークでの評価にわずか4%未満の差を生じることができます。従来の手法と比較して、私たちの方法はトレーニング不要であり、勾配不要であり、ICLのみを必要とする高効率です。
大規模言語モデル(LLM)のアライメントは、人間の選好に従って応答を調整するために、モデルを選好対照的な出力ペアでトレーニングすることを含みます。このような対照的なペアを取得するために、RLHFやRLAIFなどの従来の手法は、モデルのバリアントやデコード温度の変化など、限られた対照パターンに依存しています。この単一性により、2つの問題が生じます:(1)アライメントが包括的でないこと、そしてそれにより(2)モデルがジェイルブレイキング攻撃に対して脆弱であること。これらの問題に対処するために、我々は、選好データを向上させるためにより包括的かつ多様な対照パターンを構築する方法を調査し(RQ1)、対照パターンの多様化がモデルのアライメントに与える影響を検証します(RQ2)。RQ1に関しては、我々は、追加のフィードバックラベリング手順を必要としない6つの対照戦略を導入する、プロンプト、モデル、およびパイプラインレベルで多様な対照パターンを統合するPopAlignというフレームワークを提案します。RQ2に関しては、PopAlignが既存の手法を大幅に上回り、より包括的なアライメントをもたらすことを実証する徹底的な実験を行います。
大規模言語モデル(LLMs)がより広範囲の複雑なタスク(例:コーディング、数学)を処理できるようにすることは、多くの研究者の大きな関心を集めています。LLMsは進化を続ける中、単にモデルパラメータの数を増やすだけでは性能向上が限定され、計算コストが高くなります。最近、OpenAIのo1モデルは、推論戦略(すなわち、テスト時計算方法)がLLMsの推論能力を著しく向上させることも示しています。ただし、これらの方法の背後にあるメカニズムは未だに未解明です。本研究では、o1の推論パターンを調査するために、OpenAIのGPT-4oをバックボーンとして、数学、コーディング、常識的推論の3つの領域で一般的な推論ベンチマークを使用し、o1を既存のテスト時計算方法(BoN、Step-wise BoN、Agent Workflow、Self-Refine)と比較します。具体的には、第一に、実験結果はo1モデルがほとんどのデータセットで最良の性能を達成したことを示しています。第二に、異なる応答を探索する方法(例:BoN)に関して、報酬モデルの能力と探索空間の両方がこれらの方法の上限を制限していることが分かりました。第三に、問題を多くのサブ問題に分割する方法に関して、Agent Workflowは、計画をより良い推論プロセスにするためのドメイン固有のシステムプロンプトにより、Step-wise BoNよりも優れたパフォーマンスを達成しました。第四に、o1の6つの推論パターンをまとめ、いくつかの推論ベンチマークについて詳細な分析を提供しました。
ポストトレーニングは、大規模な事前トレーニング済みモデルをさまざまなタスクに適応させるための重要なパラダイムとして浮上しており、その効果はデルタパラメータ(つまり、ポストトレーニングと事前トレーニングのパラメータ間の不一致)によって完全に反映されます。多くの研究が、剪定、量子化、低ランク近似、および外挿などの操作を介してデルタパラメータの特性を探求してきましたが、これらの特性を体系的に調査する統一されたフレームワークが欠如していました。本論文では、損失関数のリーマン和近似に基づく新しい視点を提案し、デルタパラメータの編集操作を明らかにします。我々の分析は、既存の手法を、そのポスト編集のパフォーマンスに基づいて競争的、低下、改善の3つのクラスに分類し、それらがリーマン和近似項によってどのように表現され、モデルパフォーマンスをどのように変更するかを説明します。ViT、LLaMA 3、Qwen 2、Mistralを含む視覚および言語モデルに関する包括的な実験は、我々の理論的な発見を裏付けます。さらに、DAREやBitDeltaなどの既存の手法の拡張を紹介し、デルタパラメータの特性を活用し、ポストトレーニング済みモデルにおけるデルタパラメータの編集の適用性と効果を向上させるために、それらを一般的な表現に再編成する限界を強調します。
最近、量子化は大規模言語モデル(LLMs)の圧縮と高速化に広く使用されています。LLMsには外れ値があるため、重みと活性化を平坦化して、等間隔の量子化ポイントで量子化誤差を最小限に抑えることが重要です。以前の研究では、パーチャンネルのスケーリングやHadamard変換などのさまざまな前量子化変換が外れ値を抑制することを探求してきました。しかし、これらの変換された重みと活性化は依然として急峻で広がっていることが観察されています。本論文では、重みと活性化の平坦性を向上させるための新しいポストトレーニング量子化手法であるFlatQuant(高速かつ学習可能なアフィン変換)を提案します。当手法は、各線形層に合わせた最適なアフィン変換を特定し、軽量な目的関数を用いて数時間で較正します。ランタイムのオーバーヘッドを減らすために、変換行列にクロネッカー分解を適用し、FlatQuantのすべての操作を単一のカーネルに統合します。幅広い実験により、FlatQuantが新たな最先端の量子化ベンチマークを確立していることが示されています。例えば、LLaMA-3-70BモデルのW4A4量子化において、SpinQuantを7.5%上回る精度の低下率が1%未満であることが実証されています。推論の遅延に関して、FlatQuantは前量子化変換による遅延をQuaRotの0.26倍からわずか0.07倍にまで減少させ、プリフィルおよびデコーディングに対してそれぞれ最大2.3倍および1.7倍の高速化をもたらします。コードは以下で入手可能です:https://github.com/ruikangliu/FlatQuant.
パノラマ画像ステッチングは、カメラの視野を超えるシーンの統合された広角ビューを提供します。パンニングビデオのフレームをパノラマ写真にステッチすることは、静止しているシーンに対しては理解されている問題ですが、物体が動いている場合、静止したパノラマではシーンを捉えることができません。私たちは、元のビデオが広角カメラでキャプチャされたかのような、カジュアルにキャプチャされたパンニングビデオからパノラマビデオを合成する方法を提案します。私たちは、パノラマ合成を空間-時間のアウトペインティング問題と位置付け、入力ビデオと同じ長さの完全なパノラマビデオを作成することを目指しています。空間-時間のボリュームの一貫した補完には、ビデオコンテンツと動きに関する強力でリアルな事前知識が必要であり、これには生成的ビデオモデルを適応します。既存の生成モデルは、パノラマの補完に直ちに拡張されるわけではありませんが、私たちが示すように。代わりに、ビデオ生成をパノラマ合成システムの構成要素として適用し、モデルの強みを活用しつつ、その制限を最小限に抑える方法を示します。私たちのシステムは、人物、車両、流れる水、静止した背景要素を含む様々な野外シーンのためのビデオパノラマを作成できます。
大規模言語モデル(LLM)は、さまざまなタスクで印象的な能力を示していますが、`ジェイルブレイク'などの潜在的な安全リスクがあります。悪意のある入力によってLLMが有害なコンテンツを生成するよう強制される可能性があります。これらの問題に対処するため、多くのLLM開発者が、これらのモデルを整列させるためにさまざまな安全対策を実装しています。この整列には、事前トレーニング中のデータフィルタリング、監督されたファインチューニング、人間からのフィードバックによる強化学習、およびレッドチーム演習など、いくつかの技術が関与しています。これらの方法は、しばしば倫理的な行動を確保するために、政治的正しさ(PC)に類似した意図的なバイアスを導入します。本論文では、安全性のためにLLMに注入される意図的なバイアスに焦点を当て、これらの安全整列技術を回避する方法を検討します。特に、これらの意図的なバイアスは、GPT-4oモデルにおいて、非バイナリとシスジェンダーキーワード間で20%、白人と黒人キーワード間で16%のジェイルブレイク成功率の違いをもたらします。他のプロンプトの部分が同一である場合でもです。我々は、PCJailbreakという概念を導入し、これらの安全性に起因するバイアスがもたらす固有のリスクを強調します。さらに、生成前に防御プロンプトを注入することでジェイルブレイクの試みを防ぐ効率的な防御方法PCDefenseを提案します。PCDefenseは、テキスト生成後に追加の推論コストが必要なLlama-Guardなどのガードモデルにとって魅力的な代替手段となります。我々の調査結果は、LLM開発者が安全対策の設計と実装においてより責任あるアプローチを採用する必要性を強調しています。
Multimodal Large Language Models(MLLMs)の能力が向上し続ける中、MLLMsの高次能力評価の必要性が高まっています。しかし、中国語の視覚コンテンツに対するMLLMの高次認識と理解を評価する研究が不足しています。このギャップを埋めるために、**C**hinese **I**mage **I**mplication understanding **Bench**mark、**CII-Bench**を導入します。これは、MLLMsの中国語画像に対する高次認識と理解能力を評価することを目的としています。CII-Benchは既存のベンチマークと比較していくつかの点で際立っています。まず、中国の文脈の信憑性を確保するために、CII-Benchの画像は中国のインターネットから取得され、手動でレビューされ、対応する回答も手動で作成されています。さらに、CII-Benchには有名な中国の伝統的な絵画など、中国の伝統文化を表す画像が取り入れられており、モデルが中国の伝統文化を理解する能力を深く反映しています。複数のMLLMsでCII-Benchでの幅広い実験を通じて、重要な発見がなされました。まず、MLLMsの性能と人間の性能との間に大きな差が観察されました。MLLMsの最高精度は64.4%であり、一方人間の精度は平均78.2%で、最高で81.0%に達しています。その後、MLLMsは中国の伝統文化の画像で性能が低下し、高度なセマンティクスを理解する能力に制限があり、中国の伝統文化に対する深い知識ベースが欠如していることが示唆されました。最後に、画像の感情的ヒントがプロンプトに組み込まれると、ほとんどのモデルが精度が向上することが観察されました。CII-Benchは、MLLMsが中国語のセマンティクスと中国固有の画像についてより良い理解を得ることを可能にし、専門家レベルの人工汎用知能(AGI)に向けた道のりを前進させると信じています。当プロジェクトはhttps://cii-bench.github.io/で公開されています。
生成誤り訂正(GEC)は、自動音声認識(ASR)システムの性能を向上させるための強力な事後処理手法として台頭しています。しかし、GECモデルは、訓練中に遭遇した特定の種類の誤りを超えて一般化するのに苦労することを示しており、特にドメイン外(OOD)のシナリオにおいて新しい見慣れない誤りを修正する能力が制限されています。この現象は、固有表現(NEs)において顕著であり、NEsに関する不十分な文脈情報や知識に加えて、新しいNEsが続々と現れることがあります。これらの問題に対処するために、私たちはDARAG(Data- and Retrieval-Augmented Generative Error Correction)を提案します。これは、IDおよびOODシナリオにおいてASRのためのGECを改善するために設計された新しいアプローチです。私たちは、LLMやテキスト音声モデルを促して生成された合成データでGECトレーニングデータセットを拡張し、モデルが学習できる追加の誤りをシミュレートします。OODシナリオでは、同様に新しいドメインからテスト時の誤りを非監督的にシミュレートします。さらに、固有表現をより適切に処理するために、データベースから取得したエンティティを入力に追加することで、検索増強修正を導入します。私たちのアプローチはシンプルで拡張可能であり、ドメインや言語に依存しません。私たちは複数のデータセットと設定で実験を行い、DARAGがすべてのベースラインを上回り、IDでは8%から30%の相対WER改善を達成し、OOD設定では10%から33%の改善を示すことを示しました。
大規模言語モデル(LLM)とユーザーとのマルチターンインタラクションには、自然に暗黙のフィードバック信号が含まれます。LLMが指示に予期せぬ方法で応答すると、ユーザーはそのことを再表現したり、不満を表明したり、別のタスクに移行したりすることでそれを示す可能性があります。このような信号はタスクに依存せず、比較的制約のある言語の部分空間を占めており、LLMはそれらを識別することができます。これにより、実際のタスクに失敗した場合でも、相互作用からの継続的な学習のための手段が生まれます。本研究では、過去の相互作用からこのような信号を学習するための手法であるReSpectを紹介します。私たちは、ReSpectを新しいマルチモーダルインタラクションシナリオに展開し、人間がLLMに組合せ的な解決空間を持つ抽象的な推論タスクを解くよう指示する場面で使用します。数千回の人間との相互作用を通じて、ReSpectが外部の注釈なしでタスク完了率を31%から82%に徐々に向上させる様子を示します。
大規模言語モデル(LLMs)の開発は、多様なモーダルLLMs(MLLMs)の機能を大幅に向上させ、一般的なアシスタントとしての能力を高めました。しかし、ユーザー固有の知識の不足は、彼らの日常生活への適用を制限しています。本論文では、MLLMsの個人化のためのRetrieval Augmented Personalization(RAP)フレームワークを紹介します。一般的なMLLMから始めて、3つのステップで個人化されたアシスタントに変換します。 (a) Remember:ユーザー関連情報(例:ユーザーの名前、アバター、その他の属性)を保存するためのキー・バリューデータベースを設計します。 (b) Retrieve:ユーザーが会話を開始すると、RAPはマルチモーダルリトリーバーを使用してデータベースから関連情報を取得します。 (c) Generate:入力クエリと取得した概念情報をMLLMsに供給して、個人化された、知識を増強した応答を生成します。従来の方法とは異なり、RAPは外部データベースを更新することでリアルタイムの概念編集を可能にします。生成品質をさらに向上させ、ユーザー固有情報との整合性を高めるために、データ収集のためのパイプラインを設計し、MLLMsの個人化トレーニング用の専門データセットを作成します。このデータセットに基づいて、一連のMLLMsを個人化された多様なアシスタントとしてトレーニングします。大規模データセットで事前トレーニングを行うことで、RAP-MLLMsは追加の微調整なしに無限の視覚概念に汎化できます。当社のモデルは、個人化された画像キャプショニング、質問応答、および視覚認識などのさまざまなタスクにおいて、傑出した柔軟性と生成品質を示しています。コード、データ、およびモデルは、https://github.com/Hoar012/RAP-MLLM で入手可能です。
ビデオの視覚コンテンツに適合する音楽を生成することは、視覚的な意味論を深く理解し、メロディ、リズム、ダイナミクスが視覚的な物語と調和する音楽を生成する必要があるため、困難な課題でした。本論文では、これらの課題に効果的に対処し、オーディオビジュアルコンテンツの結束性と没入型体験を向上させる革新的なフレームワークであるMuViを提案します。MuViは、ビデオコンテンツを分析するために特別に設計された視覚アダプタを介してコンテキストに即した特徴を抽出します。これらの特徴は、ビデオのムードやテーマだけでなく、リズムやペースにも合致する音楽を生成するために使用されます。また、音楽フレーズの周期性に基づく同期を確保するための対照的な音楽-視覚事前トレーニングスキームを導入します。さらに、フローに基づく音楽生成器がコンテキスト内学習能力を持つことを示し、生成された音楽のスタイルとジャンルを制御できることを示します。実験結果は、MuViがオーディオ品質と時間的同期の両方で優れた性能を示すことを示しています。生成された音楽ビデオサンプルは、https://muvi-v2m.github.io で入手可能です。
言語モデル(LMs)は医学において専門レベルの推論能力と記憶能力を示しています。ただし、計算コストとプライバシー上の懸念が広範囲な実装の障壁となっています。私たちは、医療アプリケーション向けにモバイルデバイスで動作することが可能な38億パラメータのLMであるphi-3-miniの簡潔な適応であるMedMobileを紹介します。MedMobileは、MedQA(USMLE)で75.7%のスコアを獲得し、医師向けの合格基準(約60%)を上回り、そのサイズの100倍のモデルに近いスコアを達成することを示します。その後、慎重な一連の削除操作を行い、思考の連鎖、アンサンブル、および微調整が最もパフォーマンスを向上させることを示し、意外なことに、検索強化生成は有意な改善を示さないことを示します。
多モーダル大規模言語モデル(MLLMs)の重要な進展にもかかわらず、その高い計算コストは実世界での展開の障壁となっています。自然言語処理における深さの混合(MoDs)からインスピレーションを受け、この制限を「アクティブ化されたトークン」の観点から解決することを目指しています。私たちの主要な洞察は、ほとんどのトークンがレイヤー計算にとって冗長である場合、MoDレイヤーを介して直接スキップできるということです。ただし、MLLMsの密なレイヤーをMoDレイヤーに直接変換すると、大幅な性能の低下が生じます。この問題を解決するために、既存のMLLMs向けの革新的なMoD適応戦略であるgamma-MoDを提案します。gamma-MoDでは、MoDをMLLMに展開するための指標として、アテンションマップのランク(ARank)が提案されています。ARankを通じて、どのレイヤーが冗長であり、MoDレイヤーに置き換えるべきかを効果的に特定できます。ARankに基づいて、MLLMの計算の疎密度を最大化しつつ性能を維持するための2つの新しい設計を提案しています。それは、共有ビジョン言語ルーターとマスクされたルーティング学習です。これらの設計により、MLLMの90%以上の密なレイヤーを効果的にMoDに変換できます。私たちの手法を検証するために、3つの人気のあるMLLMに適用し、9つのベンチマークデータセットで幅広い実験を行いました。実験結果は、gamma-MoDが既存のMLLMに対する著しい効率の利点を検証するだけでなく、さまざまなMLLMに対する一般化能力を確認しています。たとえば、わずかな性能低下(-1.5%)であるLLaVA-HRのトレーニングおよび推論時間をそれぞれ31.0%と53.2%削減できます。
モデルの規模が急速に拡大しているため、微調整には大規模な計算リソースが必要とされています。Low-Rank Adaptation(LoRA)などの既存手法は、完全な微調整における大規模な更新されたパラメータの取り扱いの問題に対処しようとしてきました。しかし、LoRAは更新された重みを近似するためにランダムな初期化と低ランク行列の最適化を利用しており、これは完全な微調整と比較して収束が不十分であり、精度の差が生じる可能性があります。これらの問題に対処するために、我々はLoLDUを提案します。これは、パラメータ効率の良い微調整(PEFT)手法であり、通常のPEFT手法と比較してトレーニング可能なパラメータを2600倍削減し、同等の性能を維持します。LoLDUは、低ランク行列を初期化するためにLower-Diag-Upper Decomposition(LDU)を活用し、より速い収束と直交性を実現します。スケーリング変換のために対角行列を最適化することに焦点を当てています。我々の知る限り、LoLDUはすべてのPEFT手法の中で最も少ないパラメータを持っています。LLaMA2、RoBERTa、ViT、Stable Diffusionなど複数のモデルタイプを使用した、4つの命令従属データセット、6つの自然言語理解(NLU)データセット、8つの画像分類データセット、および画像生成データセットにわたる包括的で詳細な分析を提供するために、幅広い実験を行いました。当社のオープンソースコードは、https://github.com/SKDDJ/LoLDU{https://github.com/SKDDJ/LoLDU} でアクセスできます。
望ましい特性を持つ新しい材料を発見する能力は、気候変動の緩和から次世代コンピューティングハードウェアの進歩に至るまで、多くの応用にとって重要です。AIは、他の計算方法や試行錯誤に比べて化学空間を効果的に探索することで、材料の発見と設計を加速させる潜在能力を持っています。材料データ、ベンチマーク、モデルに関しては、AIに関する大きな進展が見られますが、公開されているトレーニングデータやオープンな事前学習モデルが不足しているという障壁が現れています。この課題に対処するために、私たちは、大規模なオープンデータセットであるOpen Materials 2024(OMat24)とそれに付随する事前学習モデルのMeta FAIRリリースを提案します。OMat24には、構造と組成の多様性に焦点を当てた1億1,000万以上の密度汎関数理論(DFT)計算が含まれています。私たちのEquiformerV2モデルは、Matbench Discoveryリーダーボードで最先端のパフォーマンスを達成し、基底状態の安定性と生成エネルギーを、それぞれ0.9以上のF1スコアと20 meV/原子の精度で予測することができます。私たちは、モデルサイズ、補助的なノイズ除去目的、およびファインチューニングが、OMat24、MPtraj、Alexandriaなどのさまざまなデータセットにおけるパフォーマンスに与える影響を探究します。OMat24データセットとモデルのオープンリリースにより、研究コミュニティは私たちの取り組みを基盤として、AI支援材料科学のさらなる進展を促進することが可能となります。
私たちは、Long-LRMという汎用的な3Dガウス再構築モデルを提案しています。このモデルは、長いシーケンスの入力画像から大規模なシーンを再構築することができます。具体的には、当該モデルは、960x540解像度の32枚のソース画像を1.3秒で処理でき、単一のA100 80G GPU上で動作します。当該アーキテクチャには、最近のMamba2ブロックと古典的なトランスフォーマーブロックのミックスが特徴として組み込まれており、これにより以前の研究よりも多くのトークンを処理できるようになりました。また、効率的なトークンのマージングやガウス枝刈りステップにより、品質と効率のバランスが取れています。従来の単純な順伝播モデルが1〜4枚の入力画像の処理に限定され、大規模なシーンの一部しか再構築できなかったのに対し、Long-LRMは単一の順伝播ステップで全シーンを再構築します。DL3DV-140やTanks and Templesなどの大規模なシーンデータセットにおいて、当手法は最適化ベースの手法と同等の性能を達成し、効率は2桁向上しています。プロジェクトページ:https://arthurhero.github.io/projects/llrm
大規模言語モデルが迅速に進化し、より長い文脈をサポートするにつれて、それらがより長い出力を生成する能力には顕著な不均衡が見られます。最近の研究によると、この不均衡の主な原因は、アラインメントトレーニング中の長い出力データの不足から生じる可能性があります。この観察に基づき、このギャップを埋めるデータで基盤モデルを再調整する試みがなされ、その結果、指示されたときに長い出力を生成できるモデルが生まれました。本論文では、長い出力のためにモデルを調整する際のデータ品質の影響と、人間によるアラインメント(指示またはチャット)モデルの出発点からその可能性について探求します。注意深いデータのキュレーションにより、われわれは、調整されたモデルで同様の性能向上を達成することが可能であり、その際にはごくわずかなトレーニングデータインスタンスと計算しか必要としません。さらに、このようなアプローチの汎用性を評価するために、私たちの調整レシピをいくつかのモデルに適用します。私たちの調査結果は、長い出力を生成する能力がモデルによって異なるものの、高品質のデータを用いて軽量な計算でそれらを調整するアプローチは、実験したすべてのモデルで一貫して顕著な改善をもたらすことを示唆しています。私たちは、長文執筆能力を調整するためのキュレーションされたデータセット、モデル調整および評価の実装、およびファインチューニングされたモデルをすべて公開しています。それらはすべてオープンにアクセス可能です。
識別器フリーガイダンス(CFG)は、視覚生成モデルのサンプル品質を向上させるための重要な技術です。ただし、自己回帰(AR)マルチモーダル生成において、CFGは言語と視覚コンテンツの間に設計上の不整合を導入し、視覚ARの異なるモダリティを統一する設計哲学に反することがあります。言語モデルの整列手法に着想を得て、私たちはガイダンスフリーのAR視覚生成を促進するために条件対照的整列(CCA)を提案し、高性能でありながらガイダンス付きサンプリング方法との理論的な関連を分析します。理想的なサンプリング分布を達成するためにサンプリングプロセスを変更するガイダンス手法とは異なり、CCAは事前学習済みモデルを同じ分布ターゲットに適合させるために直接微調整します。実験結果によると、CCAは、事前学習データセットでの微調整(事前学習エポックの約1%)を1エポックだけ行うことで、すべてのテストされたモデルのガイダンスフリー性能を大幅に向上させ、ガイダンス付きサンプリング方法と同等の性能を発揮します。これにより、AR視覚生成におけるガイダンス付きサンプリングの必要性が大幅に低減され、サンプリングコストが半減されます。さらに、トレーニングパラメータを調整することで、CCAはCFGと同様にサンプルの多様性と忠実度のトレードオフを達成できます。これにより、言語ターゲットの整列と視覚ターゲットのガイダンス手法との間に強い理論的な関連が実験的に確認され、以前は独立していた2つの研究分野が統一されました。コードとモデルの重み:https://github.com/thu-ml/CCA.
プロプライエタリ言語モデルの普及により、ユーザーの機密データに関するプライバシー懸念が高まり、暗号化された入力に直接推論を行うプライベート推論(PI)の必要性が強調されています。しかしながら、現在のPI手法は、非線形演算に起因する通信とレイテンシのオーバーヘッドが著しく高いです。本論文では、transformerベースのデコーダーのみの言語モデルにおける非線形性の役割を理解するための包括的な分析を提示します。我々は、非線形性(例:LayerNormやGELU)を系統的に除去し、FLOPs数を削減することで、効率的なPI向けに既存のLLMアーキテクチャを洗練させる4段階のアーキテクチャ最適化フレームワークであるAEROを紹介します。初めて、効率的なPI向けにFLOPsが大幅に少ないSoftmaxのみのアーキテクチャを提案します。さらに、Softmaxのみのモデルの性能を向上させるための新しいエントロピー正則化技術を考案します。AEROは、最大4.23倍の通信および1.94倍のレイテンシ削減を達成します。我々は、AEROの効果を最先端技術と比較することで検証します。
ビジョン言語基盤モデル(例:CLIP)は、大規模な画像テキストの事前学習による転移学習の力を最近示しています。ただし、下流タスクのターゲットドメインデータは、事前学習フェーズと大きく異なることがあり、そのような単一モデルがうまく一般化するのが難しい状況があります。代替手段として、さまざまなモダリティ、タスク、ネットワーク、およびデータセットで事前学習された多様なビジョンおよび/または言語知識を含む専門モデルが広範囲に存在します。残念ながら、これらのモデルは異なる構造の「孤立したエージェント」であり、その知識をどのように統合してCLIPの一般化を促進するかが完全には探求されていません。このギャップを埋めるために、私たちは一般的で簡潔なTransAgentフレームワークを提案しています。このフレームワークは、孤立したエージェントの知識を統一された方法で転送し、マルチソース知識蒸留によりCLIPの一般化を効果的に導きます。このような独自のフレームワークにより、私たちは11の異種エージェントと柔軟に協力してビジョン言語基盤モデルを強化し、推論フェーズで追加コストなしに実現します。最終的に、私たちのTransAgentは11の視覚認識データセットで最先端のパフォーマンスを達成します。同じ低ショット設定の下で、一般的なCoOpよりも平均で約10%、大きなドメインシフトが含まれるEuroSATでは20%程度の優れた成績を収めます。
多くの学生が数学の文章問題(MWPs)に苦労しており、しばしば重要な情報を特定し、適切な数学的操作を選択することが難しいと感じています。スキーマベースの指導(SBI)は、問題の構造に基づいて問題を分類し、問題解決の正確性を向上させるのに役立つ、エビデンスに基づく戦略です。これを踏まえ、大規模言語モデル(LLM)を組み込んだスキーマベースの指導検索増強生成(SBI-RAG)フレームワークを提案します。当該手法は、スキーマを活用して解決生成を導くことで、段階的な推論を重視しています。我々は、GSM8Kデータセットでその性能を評価し、GPT-4およびGPT-3.5 Turboと比較します。また、解決の質を評価する「推論スコア」指標を導入します。我々の調査結果は、SBI-RAGが推論の明瞭さと問題解決の正確性を向上させ、学生に教育上の利益をもたらす可能性があることを示唆しています。