翻訳付きの日次キュレーションされたAI研究論文
情報はさまざまな形態で提供されます。マルチモーダルなネイティブAIモデルは、現実世界の情報を統合し包括的な理解を提供するために不可欠です。専用のマルチモーダルなネイティブモデルが存在するものの、その非公開性は採用、さらには適応を妨げる障壁となっています。このギャップを埋めるために、私たちはAriaを紹介します。Ariaは、幅広いマルチモーダル、言語、およびコーディングタスクで最高クラスのパフォーマンスを発揮するオープンなマルチモーダルなネイティブモデルです。Ariaは、ビジュアルトークンごとに3.9B、テキストトークンごとに3.5Bのアクティブ化されたパラメータを持つエキスパートモデルの混合物です。AriaはPixtral-12BやLlama3.2-11Bを上回り、さまざまなマルチモーダルタスクで最高の専用モデルに対抗する性能を発揮します。私たちは、Ariaを4段階のパイプラインに従ってゼロから事前トレーニングし、言語理解、マルチモーダル理解、長いコンテキストウィンドウ、および命令の遵守といった強力な機能をモデルに徐々に装備しています。私たちは、モデルの重みをオープンソース化し、Ariaの実世界のアプリケーションでの簡単な採用と適応を可能にするコードベースも公開しています。
大規模言語モデル(LLM)は、自然言語を介したコミュニケーションが頻繁に行われる経済的および戦略的相互作用において、著しい潜在能力を示しています。これにより、重要な問題が提起されます:LLMは合理的に振る舞うのか?彼らは人間の行動を模倣できるのか?効率的かつ公正な結果に到達する傾向があるのか?戦略的相互作用における自然言語の役割は何か?経済環境の特性がこれらのダイナミクスにどのように影響するのか?これらの問題は、LLMベースのエージェントをオンライン小売プラットフォームや推薦システムなどの実世界のデータ駆動型システムに統合することの経済的および社会的影響に関して重要となります。機械学習コミュニティは、このような多エージェントセットアップにおけるLLMの潜在能力を探求してきましたが、研究間での異なる仮定、設計選択肢、評価基準により、堅牢で意味のある結論を導くことが難しくなっています。この課題に対処するために、2人対戦、順次、言語ベースのゲームに関する研究を標準化するためのベンチマークを導入します。経済学の文献に触発され、一貫したパラメータ化、自由度、経済的指標を持つ3つの基本ゲームファミリーを定義し、エージェントのパフォーマンス(自己利益)およびゲームの結果(効率性と公正性)を評価するための枠組みを開発します。相互作用シミュレーションと分析のためのオープンソースフレームワークを開発し、これを使用して、多数のゲーム構成にわたるLLM対LLMの相互作用のデータセットと、人間対LLMの相互作用の追加データセットを収集します。包括的な実験を通じて、当社のフレームワークとデータセットが以下のように使用できることを示し:(i)様々な経済的文脈でLLMベースのエージェントの振る舞いを人間プレイヤーと比較する;(ii)個々および集団のパフォーマンス指標でエージェントを評価する;および(iii)環境の経済的特性がエージェントの振る舞いに与える影響を数量化する。
最近の多様な言語モデル(MLLMs)の進歩により、著しい進展が示されています。しかしながら、これらのモデルには「顔の識別障害」と呼ばれる顕著な制約があります。具体的には、一般的な会話はできるものの、特定の個人を対象とした個別の対話を行うことができません。この欠点は、モバイルデバイス上のカスタマイズされたビジュアルアシスタントや家庭用ロボットなど、個人に対応する環境でのMLLMsの適用を妨げています。本論文では、Personalized Visual Instruction Tuning(PVIT)という新しいデータキュレーションおよびトレーニングフレームワークを紹介し、MLLMsが画像内の対象個人を識別し、個別かつ一貫した対話を行うことを可能にするよう設計されています。当該手法には、個別の会話を含むトレーニングデータを自律的に生成するための高度なパイプラインの開発が含まれています。このパイプラインは、さまざまなビジュアルエキスパート、画像生成モデル、および(多様なモードの)大規模言語モデルの能力を活用しています。MLLMsの個別化の潜在能力を評価するために、P-Benchと呼ばれるベンチマークを提示しています。このベンチマークには、さまざまな難易度の質問タイプが含まれています。実験は、当社のキュレーションされたデータセットでのファインチューニング後に顕著な個別化パフォーマンスの向上を示しています。
Pixtral-12Bは、120億パラメータのマルチモーダル言語モデルです。 Pixtral-12Bは、自然画像と文書の両方を理解するように訓練されており、 さまざまなマルチモーダルベンチマークで傑出したパフォーマンスを達成し、いくつかのより大きなモデルを凌駕しています。多くのオープンソースモデルとは異なり、Pixtralはそのサイズにおいても最先端のテキストモデルであり、マルチモーダルタスクで優れた性能を発揮するために自然言語のパフォーマンスを犠牲にしていません。Pixtralは、ゼロから訓練された新しいビジョンエンコーダを使用しており、これにより画像をその自然な解像度とアスペクト比で取り込むことができます。これにより、画像を処理するために使用されるトークンの数に柔軟性が生まれます。Pixtralは、128Kトークンの長いコンテキストウィンドウで任意の数の画像を処理することができます。Pixtral 12Bは、同様のサイズの他のオープンモデル(Llama-3.2 11B&Qwen-2-VL 7B)よりも大幅に優れており、Llama-3.2 90Bなどのはるかに大きなオープンモデルを7倍小さくしながらも上回っています。さらに、実践的なシナリオでビジョン言語モデルを評価するためのオープンソースベンチマークであるMM-MT-Benchを提供し、マルチモーダルLLMの標準化された評価プロトコルの詳細な分析とコードを提供しています。Pixtral-12BはApache 2.0ライセンスの下でリリースされています。
本論文では、Diffusion Transformer(DiT)を用いたフローマッチングに基づく完全な非自己回帰テキスト読み上げシステムであるF5-TTSを紹介します。このシステムは、デュレーションモデルやテキストエンコーダー、音素の整列などの複雑な設計を必要とせず、テキスト入力は単純にフィラートークンで埋められ、入力音声と同じ長さになります。その後、ノイズを除去して音声生成が行われます。この手法は、元々E2 TTSによって実現可能であることが証明されています。ただし、E2 TTSの元の設計は収束が遅く、頑健性が低いため、追従が難しいとされています。これらの問題に対処するために、まずConvNeXtを使用して入力をモデリングし、テキスト表現を洗練させ、音声と簡単に整列できるようにします。さらに、推論時のSway Sampling戦略を提案し、モデルの性能と効率を大幅に改善します。このフローステップのサンプリング戦略は、再トレーニングなしで既存のフローマッチングベースのモデルに簡単に適用できます。私たちの設計により、より高速なトレーニングが可能となり、推論RTFは0.15となり、最先端の拡散ベースのTTSモデルと比較して大幅に改善されています。公開された100K時間の多言語データセットでトレーニングされたFairytaler Fakes Fluent and Faithful speech with Flow matching(F5-TTS)は、非常に自然で表現豊かなゼロショット能力、シームレスなコード切り替え能力、および速度制御の効率を示します。デモサンプルはhttps://SWivid.github.io/F5-TTSで入手できます。私たちはすべてのコードとチェックポイントを公開して、コミュニティの開発を促進します。
テキストからビデオ(T2V)モデルのようなSoraは、複雑なプロンプトを視覚化する上で大きな進展を遂げており、これは普遍的な世界シミュレータを構築する有望な道筋と見なされるようになっています。認知心理学者は、この目標を達成する基盤は直感的な物理を理解する能力であると考えています。しかしながら、これらのモデルが直感的な物理を正確に表現する能力はほとんど探求されていません。このギャップを埋めるために、物理常識の正確さを評価するために設計された包括的な物理生成ベンチマークであるPhyGenBenchを導入します。PhyGenBenchには、4つの基本的な領域にまたがる27の異なる物理法則をカバーする、慎重に作成された160のプロンプトが含まれており、これによりモデルの物理常識の理解を包括的に評価できます。PhyGenBenchに加えて、Hierarchical Evaluation Structureを使用し、適切な高度なビジョン言語モデルと大規模な言語モデルを活用する新しい評価フレームワークであるPhyGenEvalを提案します。PhyGenBenchとPhyGenEvalを通じて、T2Vモデルの物理常識の理解を大規模かつ自動化された評価を行い、これは人間のフィードバックと密接に一致します。評価結果と詳細な分析により、現在のモデルが物理常識に準拠するビデオを生成するのに苦労していることが示されます。さらに、単にモデルをスケーリングアップしたり、プロンプトエンジニアリング技術を採用するだけでは、PhyGenBench(例:動的シナリオ)が提示する課題に完全に対処するのには不十分です。この研究が、これらのモデルにおける物理常識の学習を娯楽アプリケーションを超えて優先させるようコミュニティにインスピレーションを与えることを願っています。データとコードはhttps://github.com/OpenGVLab/PhyGenBench で公開されます。
RPG、Stable Diffusion 3、FLUXなどの高度な拡散モデルは、テキストから画像を生成する際に注目すべき進展を遂げています。しかしながら、これらの手法は通常、構成生成において異なる強みを示し、属性の結合を処理するのに優れたものと空間関係を扱うのに優れたものがあります。この格差は、さまざまなモデルの補完的な強みを活用して構成能力を包括的に向上させるアプローチの必要性を示しています。このため、我々はIterCompを導入し、複数のモデルから構成認識モデルの選好を集約し、反復的なフィードバック学習アプローチを用いて構成生成を強化します。具体的には、6つの強力なオープンソースの拡散モデルのギャラリーを編成し、属性の結合、空間関係、非空間関係という3つの主要な構成メトリクスを評価します。これらのメトリクスに基づき、構成認識モデル選好データセットを開発し、多数の画像ランクペアをトレーニングデータとして構成認識報酬モデルを訓練します。その後、基本的な拡散モデルと報酬モデルの両方を複数の反復を通じて逐次的に自己改良できるようにする反復的なフィードバック学習手法を提案します。理論的証明が効果を示し、広範な実験が、特に複数カテゴリのオブジェクト構成や複雑な意味的整合性において、以前のSOTA手法(例:OmostとFLUX)に比べて著しい優位性を示しています。IterCompは、拡散モデルと構成生成における報酬フィードバック学習の新たな研究分野を開拓します。コード:https://github.com/YangLing0818/IterComp
ビデオ生成には、膨大な時空間をモデリングする必要があり、それには大規模な計算リソースとデータ使用量が必要です。複雑さを軽減するために、従来のアプローチでは、完全な解像度での直接トレーニングを避けるためにカスケードアーキテクチャが採用されています。計算要件を削減するものの、各サブステージの別々の最適化は知識共有を妨げ、柔軟性を犠牲にしています。この研究では、統一された金字塔フローマッチングアルゴリズムを紹介しています。これは、元のノイズ除去軌道を金字塔ステージの系列として再解釈し、最終ステージのみが完全な解像度で動作するようにしており、より効率的なビデオ生成モデリングを可能にしています。洗練された設計により、異なる金字塔ステージのフローを相互にリンクさせて連続性を維持することができます。さらに、完全な解像度の履歴を圧縮するために、時系列金字塔を使用した自己回帰ビデオ生成を作成しています。全体のフレームワークは、単一統一Diffusion Transformer(DiT)を用いてエンドツーエンドで最適化できます。幅広い実験により、当社の手法が、768pの解像度で20.7k A100 GPUトレーニング時間以内に、高品質な5秒(最大10秒)のビデオを24 FPSで生成することをサポートしていることが示されています。すべてのコードとモデルは、https://pyramid-flow.github.io でオープンソースとして公開されます。
我々は、大規模ビジョン言語モデル(LVLMs)の多モーダル事前学習の品質を示す効果的で堅牢で一般的な指標であるModality Integration Rate(MIR)を提案します。大規模事前学習は、能力のあるLVLMsを構築する上で重要な役割を果たしますが、高コストな教師ありファインチューニング段階なしでその訓練品質を評価することは未開拓です。損失、パープレキシティ、およびコンテキスト内評価結果は、大規模言語モデル(LLMs)の事前学習メトリクスとして一般的に使用されますが、我々は、これらのメトリクスが新しいモダリティに適切に調整された訓練済みLLMとの整合性が少ないことに気付きました。適切なメトリクスの欠如により、LVLMsの重要な事前学習段階における研究が大きく妨げられており、トレーニングデータの選択、効率的なモジュール設計などが含まれます。本論文では、事前学習品質を異モーダル分布距離の観点から評価し、事前学習品質を表現し、教師ありファインチューニング後のベンチマークパフォーマンスとの正の関係を示す効果的なModality Integration Rate(MIR)を提案します。2)異なるトレーニング/評価データに対して堅牢です。3)トレーニング構成とアーキテクチャ選択にわたって一般化します。MIRの効果を探るために一連の事前学習実験を実施し、MIRがトレーニングデータの選択、トレーニング戦略スケジュール、およびモデルアーキテクチャ設計について示唆的であり、より良い事前学習結果を得るための手助けとなることを観察しました。MIRが能力のあるLVLMsを構築するための有益なメトリクスとなり、異なる領域でのモダリティ整合性に関する研究を促進することを期待しています。弊社のコードは以下にあります:https://github.com/shikiw/Modality-Integration-Rate.
この技術レポートでは、新しいMambaアーキテクチャに基づく大規模言語モデルであるFalcon Mamba 7Bを紹介します。Falcon Mamba 7Bは、慎重に選択されたデータ混合を用いて5.8兆トークンでトレーニングされています。純粋なMambaベースのモデルであるFalcon Mamba 7Bは、Transformersに基づく主要なオープンウェイトモデルであるMistral 7B、Llama3.1 8B、およびFalcon2 11Bを凌駕しています。Gemma 7Bと同等であり、RecurrentGemma 9BやRWKV-v6 Finch 7B/14Bなどの異なるアーキテクチャ設計のモデルを上回っています。現在、Falcon Mamba 7Bは、このスケールで文献中で最も性能の高いMambaモデルであり、Open LLM Leaderboardによると、既存のMambaモデルやハイブリッドMamba-Transformerモデルを凌駕しています。アーキテクチャにより、Falcon Mamba 7Bは推論時に著しく高速であり、長いシーケンス生成には大幅に少ないメモリが必要です。最近の研究では、ハイブリッドMamba-Transformerモデルが純粋なアーキテクチャ設計を上回ると示唆していますが、私たちは純粋なMamba設計でもTransformerやハイブリッド設計と同等またはそれ以上の結果を達成できることを示しています。Falcon Mamba 7Bの実装の重みは、許諾されたライセンスのもとでhttps://huggingface.co/tiiuae/falcon-mamba-7b で公開されています。
本論文では、ビジョンのバックボーンと最適化アルゴリズムとの相互作用に焦点を当て、\textbf{backbone-optimizer coupling bias}(BOCB)と呼ばれる相互依存の現象を明らかにします。私たちは、VGGやResNetなどの代表的なCNNがSGDファミリーと顕著な相互依存関係を示す一方、ViTsやConvNeXtなどの最近のアーキテクチャは適応型学習率アルゴリズムと密接に結びついていることを観察しています。さらに、BOCBは最適化アルゴリズムや特定のバックボーン設計によって導入され、ビジョンモデルの事前学習およびダウンストリームの微調整に重大な影響を与える可能性があります。詳細な実証分析を通じて、推奨される最適化アルゴリズムに関する要点や堅牢なビジョンバックボーンアーキテクチャに関する洞察をまとめます。この研究がコミュニティにバックボーンと最適化アルゴリズムに関する長年の前提を問い直し、さらなる探求を促し、より堅牢なビジョンシステムに貢献することを願っています。ソースコードとモデルは https://bocb-ai.github.io/ で公開されています。
この研究は、エゴセントリックビデオ理解のためのマルチモーダルな基盤モデルの構築を包括的に探求することを目的としています。この目標を達成するために、我々は3つのフロントで取り組んでいます。まず、エゴセントリックビデオ理解のためのQAデータが不足しているため、人手による注釈付きデータに基づいて、30秒から1時間の範囲のエゴセントリックビデオについて、効率的に7Mの高品質QAサンプルを生成するデータエンジンを開発しています。これは現在、最大のエゴセントリックQAデータセットです。第二に、異なる長さのビデオにわたる視覚的詳細の認識と記憶能力をモデルが評価するために、629本のビデオと7,026の質問を含む難解なエゴセントリックQAベンチマークを提供しています。評価されるモデルに存在する避けられない言語バイアスを緩和するための新しいデバイアス評価方法を導入しています。第三に、新しい「メモリポインタープロンプティング」メカニズムを特徴とする専門のマルチモーダルアーキテクチャを提案しています。この設計には、ビデオ全体の包括的な理解を得て、主要な視覚情報を特定するためのグローバルグリムスステップが含まれ、その後、主要な視覚情報を利用して応答を生成するフォールバックステップが続きます。これにより、モデルはより効果的に拡張されたビデオコンテンツを理解することができます。データ、ベンチマーク、モデルを用いて、我々は強力なパフォーマンスを示すエゴセントリックマルチモーダルLLMであるMM-Egoを成功裏に構築しました。
物語の視覚化は、物語に基づいて一貫した画像を生成するタスクであり、特に拡散モデルと呼ばれるテキストから画像へのモデルの出現により、大きな進歩が見られています。ただし、意味の一貫性を維持し、高品質な細かい相互作用を生成し、計算上の実現可能性を確保することは、特に長い物語の視覚化(つまり、最大100フレーム)においては依然として課題が残っています。本研究では、長い物語の生成能力を向上させるためのトレーニング不要で計算効率の良いフレームワークであるStory-Adapterを提案します。具体的には、各生成された画像を洗練する反復パラダイムを提案し、前の反復からのすべての生成された画像とテキストプロンプトの両方を活用します。当フレームワークの中心には、トレーニング不要のグローバルなリファレンスクロスアテンションモジュールがあり、前の反復からのすべての生成された画像を集約して物語全体で意味の一貫性を維持し、グローバルな埋め込みを使用して計算コストを最小限に抑えます。この反復的なプロセスにより、画像生成を進行的に最適化し、テキストの制約を繰り返し取り入れることで、より正確で細かい相互作用が生じます。包括的な実験により、Story-Adapterが特に長い物語のシナリオにおいて、意味の一貫性と生成能力の両方を向上させることが確認されました。プロジェクトページと関連するコードは、https://jwmao1.github.io/storyadapter からアクセスできます。
人間の好みとの整合を通じて、大規模言語モデル(LLM)は正直で無害かつ有益な応答を生成する能力が著しく向上しています。ただし、高品質な好みのデータを収集することは、特にLLMの継続的な改善のためにはリソースを多く要し、創造性を要求されるプロセスです。本研究では、モデルの整合性のために合成好みのデータを活用する自己ブースティングパラダイムであるSynPOを提案します。SynPOは、自己プロンプト生成器が多様なプロンプトを作成し、応答改善者が段階的にモデルの応答を洗練する反復的なメカニズムを採用しています。このアプローチにより、LLMは自律的に自身の出力の生成的報酬を学習し、プロンプトや人間の好みの大規模な注釈の必要性を排除します。SynPOを4回反復した結果、Llama3-8BとMistral-7BはAlpacaEval 2.0とArenaHardにおいて22.1%以上の勝率向上を達成し、指示に従う能力が著しく向上しました。同時に、SynPOは、Open LLM leaderboardにおいて3.2から5.0の平均スコアの向上により、LLMの一般的なパフォーマンスを向上させました。
ファウンデーションモデル(FMs)は大規模なデータセットで事前にトレーニングされ、その後特定のアプリケーションのためのダウンストリームタスクでファインチューニングされます。最も成功して一般的に使用されているファインチューニング方法は、事前にトレーニングされた重みを低ランク適応(LoRA)を介して更新することです。LoRAは通常、モデルの重み全体に均一なランク分布を持つランダムに初期化された新しい重み行列を導入します。最近の研究では、トレーニング中に重み駆動の初期化や適応的なランクの学習に焦点を当てています。両方のアプローチは単独で調査されており、収束が遅いか均一なランク分布となり、結果として最適なパフォーマンスが得られません。私たちは、アクティベーションベクトルのミニバッチで特異値分解を計算することにより、新しい重みをデータ駆動の方法で初期化することでLoRAを強化することを提案します。その後、得られた右特異ベクトルでLoRA行列を初期化し、すべての重み行列にランクを再分配して最大の分散量を説明し、標準のLoRAファインチューニング手順を継続します。これにより、私たちの新しい手法である説明された分散適応(EVA)が生まれます。私たちは、言語生成や理解から画像分類、強化学習までさまざまなファインチューニングタスクにEVAを適用します。EVAは競合他社よりも収束が速く、ドメインごとに多数のタスクで最高の平均スコアを達成します。
本論文では、事前学習済みのT2Vモデルから高性能な一貫性モデルを抽出することにより、後段トレーニング段階で拡散ベースのテキストからビデオへのモデル(T2V)を強化することに焦点を当てています。提案された手法であるT2V-Turbo-v2は、高品質なトレーニングデータ、報酬モデルフィードバック、および条件付きガイダンスなど、さまざまな監督信号を一貫性蒸留プロセスに統合することで、重要な進歩をもたらします。包括的な除去研究を通じて、特定の学習目標にデータセットを適合させることの重要性と、視覚品質とテキスト-ビデオの整合性の両方を向上させるために多様な報酬モデルから学習する効果を強調しています。さらに、効果的なエネルギー関数を設計して教師ODEソルバーを強化することに焦点を当てた条件付きガイダンス戦略の広大な設計空間を強調しています。訓練データセットから動きのガイダンスを抽出し、それをODEソルバーに組み込むことで、VBenchとT2V-CompBenchからの改善された動き関連メトリクスで生成されたビデオの動き品質を向上させる効果を示しています。経験的に、T2V-Turbo-v2はVBenchでTotalスコア85.13という新たな最高成績を樹立し、Gen-3やKlingなどのプロプライエタリシステムを上回っています。
大規模言語モデルは、コード補完、コード挿入、および指示コード編集などのプログラミング支援タスクに成功裏に適用されてきました。しかし、これらのアプリケーションは未だ自動化が不十分であり、プログラミングプロセス中にコーディング履歴、現在のコード、およびユーザーの指示など、さまざまな情報を効果的に統合することに苦労しています。本研究では、これらの情報ソースを包括的に統合する新しい会話フレームワークを提案し、モデルを訓練し評価するためのデータを収集します。まず、モデルが異なるタイプの情報とその出力の品質とどのように整合するかを徹底的に評価するために、プログラミング支援タスクにおけるモデルのパフォーマンスを包括的に評価する新しいベンチマークであるAPEval(Assist Programming Eval)を導入します。次に、データ収集のために、GitHubやオンラインジャッジプラットフォームなどのさまざまなソースからトレーニングデータを合成するデータ生成パイプラインであるProgramming-Instructを開発します。このパイプラインは、プログラミングプロセス全体でさまざまなタイプのメッセージを自動的に生成できます。最後に、このパイプラインを使用して、219Kのサンプルを生成し、複数のモデルを微調整し、CursorCoreシリーズを開発します。CursorCoreが同等サイズの他のモデルを上回ることを示します。このフレームワークは、インラインチャットや自動編集などのアプリケーションを統一し、コーディングアシスタントの進歩に貢献します。コード、モデル、およびデータはhttps://github.com/TechxGenus/CursorCore で無料で利用可能です。
ビデオ大規模言語モデル(Video LLMs)は、ビデオ理解において有望な能力を示していますが、時間的変化の追跡や時間的関係の推論に苦労しています。以前の研究では、視覚的入力の効果的な時間エンコーディングの不足がこの制約の原因であるとされてきましたが、私たちの診断研究により、ビデオ表現には、さえない探査分類器でも完全な正確さを達成するのに十分な情報が含まれていることが明らかになりました。驚くべきことに、ビデオ LLMs の時間的推論能力の主要なボトルネックは、テキスト形式の時間的質問応答タスクでのパフォーマンスの低さから明らかになるように、基盤となる LLM の時間的概念に対する固有の難しさにあります。この発見を基に、私たちは Textual Temporal reasoning Transfer(T3)を導入します。T3 は、既存の画像テキストデータセットから純粋なテキスト形式の多様な時間的推論タスクを合成し、複雑な時間シナリオを持つビデオサンプルの不足に対処します。驚くべきことに、ビデオデータを使用せずに、T3 は LongVA-7B の時間理解を向上させ、難解な TempCompass ベンチマークで 5.3 の絶対精度向上をもたらし、28,000 のビデオサンプルでトレーニングされた ShareGPT4Video-8B を上回るモデルを実現します。さらに、強化された LongVA-7B モデルは包括的なビデオベンチマークで競争力のあるパフォーマンスを達成します。例えば、Video-MME の時間推論タスクで 49.7 の精度を達成し、InternVL-Chat-V1.5-20B や VILA1.5-40B などの強力な大規模モデルを上回ります。さらなる分析から、テキストとビデオの時間的タスクのパフォーマンスに強い相関関係があることが明らかになり、テキストからビデオ領域への時間的推論能力の転送の効果を検証しています。
最近の大規模テキストからビデオ(T2V)および画像からビデオ(I2V)拡散モデルの進歩は、特にキーフレーム補間において、ビデオ生成を大幅に向上させました。ただし、現在の画像からビデオへの拡散モデルは、単一の条件付けフレームからビデオを生成する際には強力ですが、効果的な境界補間に不可欠な2フレーム(開始&終了)条件付け生成には適応が必要です。残念ながら、時間的に前方と後方のパスを並行して融合する既存のアプローチは、しばしばオフマニフォールドの問題に苦しんでおり、アーティファクトを生じるか、複数の反復的な再ノイズ化ステップを必要とします。本研究では、これらのオフマニフォールドの問題に対処するための革新的な双方向サンプリング戦略を導入します。この方法は、開始フレームと終了フレームに応じて、前方と後方のパスに沿って順次サンプリングを行い、中間フレームのより一貫したおよびオンマニフォールドな生成を確実にします。さらに、CFG++およびDDSといった高度なガイダンス技術を組み込み、補間プロセスをさらに強化します。これらを統合することで、当該手法は最先端の性能を達成し、高品質で滑らかなビデオをキーフレーム間で効率的に生成します。3090 GPU1枚で、当該手法は1024 x 576の解像度で25フレームをわずか195秒で補間し、キーフレーム補間の先進的なソリューションとして確立されています。
テキストから画像やビデオを生成するカスタマイズの進化は著しいものの、複数の個人用コンセプトを効果的に統合した画像やビデオを生成することは依然として難しい課題です。この課題に対処するため、推論フェーズ中にカスタマイズされた拡散モデルを構築するための新しい手法であるTweedieMixを提案します。逆拡散サンプリングの特性を分析することで、当該手法はサンプリングプロセスを2段階に分割します。初期段階では、望ましいターゲットオブジェクトが含まれるように複数のオブジェクト認識サンプリング技術を適用します。後段階では、Tweedieの式を用いて、ノイズの除去された画像空間でカスタムコンセプトの外観を組み合わせます。当該手法により、既存の手法よりも高い忠実度で複数の個人用コンセプトを生成できることが示されています。さらに、当該フレームワークは、画像からビデオへの拡散モデルに容易に拡張でき、複数の個人用コンセプトを特徴とするビデオを生成できます。結果とソースコードは、当該匿名のプロジェクトページに掲載されています。
指示チューニングは、指示と応答のペアを使用した教師付きファインチューニングであり、事前にトレーニングされた大規模言語モデル(LLM)を有用で安全なチャットアシスタントに移行する際の基本的なステップです。私たちの仮説は、適切な出力空間を確立することで、事前にトレーニングされたLLMに固有の能力を活用して、このような移行を可能にできるというものです。これを検証するために、指示チューニングにおける指示条件付けステップを排除し、応答空間の監督にのみ焦点を当てるResponse Tuning(RT)を提案します。私たちの実験は、応答のみを使用して訓練されたRTモデルが、幅広い指示に効果的に応答し、その指示チューニングされた対応モデルと同等の有用性を示すことを示しています。さらに、トレーニング応答分布を制御することが、ユーザーの好みを大幅に向上させたり、安全でないクエリに対する支援を拒否するなどの目標行動を引き出すことができることを観察しています。私たちの調査結果は、適切な出力空間を確立することの役割を明らかにし、事前にトレーニングされたLLMの幅広い固有の能力の潜在性を強調しています。
本論文では、人間の介入や事前定義されたスコープ(例:指定された候補戦略)なしに、ゼロからできるだけ多くのジェイルブレイク戦略を自動的に発見し、それらをレッドチーミングに使用することができるブラックボックスのジェイルブレイク手法であるAutoDAN-Turboを提案します。その結果、AutoDAN-Turboは、公開されているベンチマークにおいて、基準となる手法を大幅に上回り、平均攻撃成功率が74.3%高い値を達成します。特筆すべきは、AutoDAN-TurboがGPT-4-1106-turboにおいて88.5%の攻撃成功率を達成していることです。さらに、AutoDAN-Turboは、既存の人間によって設計されたジェイルブレイク戦略をプラグアンドプレイの方法で統合できる統一されたフレームワークです。人間によって設計された戦略を統合することで、AutoDAN-TurboはGPT-4-1106-turboにおいて93.4%というより高い攻撃成功率を達成することさえ可能です。
最近の拡散モデルの進歩により、画像およびビデオ生成において卓越した能力が示され、4次元合成の効果がさらに向上しています。既存の4D生成手法は、ユーザーフレンドリーな条件に基づいて高品質な4Dオブジェクトやシーンを生成でき、ゲームおよびビデオ産業に利益をもたらしています。ただし、これらの手法は、複雑な4D遷移内の重要なオブジェクト変形やシーン内の相互作用を合成するのに苦労しています。この課題に対処するために、我々はTrans4Dを提案します。これは、リアルな複雑なシーン遷移を可能にする新しいテキスト対4D合成フレームワークです。具体的には、最初に多様なモダリティを持つ大規模言語モデル(MLLMs)を使用して、物理を考慮した4Dシーンの説明を生成し、効果的な遷移タイミングの計画を行います。次に、計画に基づいて複雑なシーンレベルの4D遷移を実現するための幾何学を考慮した4D遷移ネットワークを提案します。これには、表現豊かな幾何学的オブジェクト変形が含まれます。幅広い実験により、Trans4Dが正確で高品質な遷移を持つ4Dシーンを生成する点で、既存の最先端手法を一貫して上回ることが示され、その効果が検証されました。コード: https://github.com/YangLing0818/Trans4D
マルチモーダル大規模言語モデル(MLLMs)は急速に進化し、人間とその環境と双方とやり取りするマルチモーダルアシスタントとして印象的な能力を示しています。しかしながら、この高度な洗練さは重要な安全性上の懸念をもたらします。本論文では、マルチモーダル状況安全性と呼ばれる新しい安全性課題の初めての評価と分析を提示します。これは、ユーザーまたはエージェントが関与する具体的な状況に基づいて安全性の考慮事項がどのように変化するかを探求します。我々は、MLLMが安全に応答するためには、言語または行動を通じて、しばしば言語クエリの安全性の含意をそれに対応する視覚的コンテキストで評価する必要があると主張します。この能力を評価するために、現行のMLLMの状況安全性パフォーマンスを評価するためのマルチモーダル状況安全性ベンチマーク(MSSBench)を開発します。このデータセットには、1,820の言語クエリ-画像ペアが含まれており、そのうち半分は画像コンテキストが安全であり、もう半分は危険です。また、明示的な安全性推論、視覚理解、そして重要な状況安全性推論を含む主要な安全性側面を分析する評価フレームワークを開発します。我々の調査結果によると、現行のMLLMはこの微妙な安全性問題に苦しんでおり、指示に従う状況設定でこれらの状況安全性課題に一度に対処するのが難しいことが明らかになり、将来の研究の重要な分野を示しています。さらに、安全性課題を協調して解決するためのマルチエージェントパイプラインを開発し、元のMLLM応答よりも安全性が一貫して向上することを示しています。コードとデータ:mssbench.github.io。
テキストからビデオ(T2V)生成モデルは、便利な視覚的作成を提供し、最近注目を集めています。生成されたビデオには、構造的な不自然さ、時間的な不整合、動きの欠如などのアーティファクトが見られることがあり、しばしばほぼ静止したビデオが生じます。本研究では、異なるブロック間での時間的注視マップの不一致と時間的な不整合の発生との相関関係を特定しました。さらに、時間的注視マップに含まれるエネルギーが生成されたビデオの動きの振幅と直接関連していることを観察しました。これらの観察に基づき、追加のパラメータを導入せず、メモリを増やさず、サンプリング時間を増やさずに、テキストからビデオ生成の品質を向上させるトレーニングフリーな手法であるBroadWayを提案します。具体的には、BroadWayは2つの主要なコンポーネントで構成されています。1)時間的自己ガイダンスは、さまざまなデコーダブロック間の時間的注視マップの不一致を減らすことで、生成されたビデオの構造的な妥当性と時間的一貫性を向上させます。2)フーリエ変換ベースの動き強化は、マップのエネルギーを増幅することで、動きの振幅と豊かさを向上させます。幅広い実験により、BroadWayが追加コストをほとんどかけずにテキストからビデオ生成の品質を大幅に向上させることが示されました。
生成モデルは、音楽生成などの創造的な領域を変革しており、分類器フリーガイダンス(CFG)などの推論時戦略が重要な役割を果たしています。ただし、CFGは生成されたコンテンツ全体の独自性と多様性を制限しながら、推論コストを倍増させます。本論文では、多様性報酬CFG蒸留という、CFGの強みを蒸留しつつその制限に対処する新しいファインチューニング手法を紹介します。当アプローチは、2つのトレーニング目的を最適化します:(1)蒸留目的は、モデル自体(CFGなしで)にCFG拡張予測を模倣するよう促し、(2)多様性報酬を持つRL目的は、特定のプロンプトに対して多様な出力の生成を促進します。ファインチューニングにより、推論コストをかけることなく、高品質で多様な出力を生成する能力を持つモデルの重みを学習します。これにより、重みベースのモデル統合戦略の可能性も開かれます:2つのモデルの重み(1つは品質に焦点を当て、もう1つは多様性に焦点を当てたもの)の間を補間することで、展開時に品質と多様性のトレードオフを制御し、さらなるパフォーマンス向上も可能です。我々は、MusicLM(Agostinelliら、2023年)テキストから音楽を生成するモデルで広範な実験を行い、我々のアプローチが品質と多様性のパレート最適性においてCFGを上回ることを示しました。人間の評価者によると、ファインチューニングしてから統合されたモデルは、CFGで拡張されたベースモデルよりも高品質かつ多様性のあるサンプルを生成します。生成物を以下でご覧いただけます:https://google-research.github.io/seanet/musiclm/diverse_music/。
この研究は、大規模なコーパスから高品質な事前学習データを選択し、言語モデル(LM)の下流利用能力を向上させることを探求しています。我々はデータ選択を一般化された最適制御問題として定式化し、Pontryaginの最大原理(PMP)によって理論的に解決できます。これにより、最適データ選択とLMトレーニングダイナミクスとの関係を特徴付ける一連の必要条件が導かれます。これらの理論的結果に基づき、PMPベースのデータ選択(PDS)を導入し、PMP条件を解くことで最適データ選択を近似するフレームワークを提案します。実験では、PDSを採用してCommmonCrawlからデータを選択し、PDSによって選択されたコーパスがLMの学習を加速し、様々なモデルサイズで幅広い下流タスクでのパフォーマンスを常に向上させることを示します。さらに、PDSの利点は、スケーリング則に従ったテスト損失曲線の外挿によって証明されるように、約400Bモデルが約10Tトークンでトレーニングされた場合にも及びます。PDSは、事前学習データが限られている場合にデータ需要を1.8倍削減することで、利用可能なWebクロールコーパスの迅速な枯渇を緩和し、データの利用を改善します。コード、データ、およびモデルのチェックポイントは、https://github.com/microsoft/LMOps/tree/main/data_selection で入手できます。
ビデオの時間的なグラウンディング(VTG)は、ビデオ理解モデルにとって重要な能力であり、ビデオの閲覧や編集などの下流タスクにおいて重要な役割を果たします。さまざまなタスクを効果的に同時に処理し、ゼロショット予測を可能にするために、ビデオLLMをVTGタスクに採用する傾向が高まっています。ただし、現在のビデオLLMベースの手法は、自然言語生成にのみ依存しており、ビデオ固有の明確な構造をモデル化する能力が欠如しているため、VTGタスクに取り組む際の効果が制限されています。この問題に対処するために、本論文では、ビデオをイベントのシーケンスとして表現し、前のイベント、ビデオ入力、およびテキスト指示を使用して現在のイベントを予測する因果関係イベントモデリングフレームワークを形式的に導入します。各イベントは、タイムスタンプ、顕著なスコア、およびテキストキャプションの3つのコンポーネントで構成されています。次に、因果関係イベントモデリングフレームワークを効果的に実装するための新しいタスク間ビデオLLMであるTRACEを提案します。TRACEは、視覚フレーム、タイムスタンプ、顕著なスコア、およびテキストをそれぞれ異なるタスクとして処理し、各タスクに対してさまざまなエンコーダーとデコーディングヘッドを使用します。タスクトークンは、因果関係イベントモデリングフレームワークの定式化に従って交互に配置されます。さまざまなVTGタスクとデータセットでの包括的な実験により、TRACEの最新のビデオLLMに比べて優れたパフォーマンスが示されました。当モデルとコードは、https://github.com/gyxxyg/TRACE で入手可能です。
マルチモーダル大規模言語モデル(MLLMs)がさまざまなタスクでますます競争力のあるパフォーマンスを示し続ける中、これらの最先端モデルを評価するためにより複雑で包括的なベンチマークが開発されてきました。これらのベンチマークは知覚、推論、計画などの中核能力に新たな課題を導入します。しかしながら、既存のマルチモーダルベンチマークは、画像内の空間関係に基づく多段階プランニングの集中的な評価を提供する点で不足しています。このギャップを埋めるために、私たちは、MLLMsの空間想像力と多段階推論能力を評価するために特別に設計された最初のインタラクティブゲームベースのビジョンプランニングベンチマークであるING-VPを提案します。ING-VPには6つの異なるゲームがあり、それぞれが6つのユニークな構成を持つ300レベルが含まれています。1つのモデルが6万ラウンド以上のインタラクションに参加します。このベンチマークフレームワークには、画像テキスト対テキストのみ入力、単一段階対多段階推論、および履歴あり対履歴なしの条件など、複数の比較設定が可能であり、モデルの能力に関する貴重な洞察を提供します。私たちは、最先端のMLLMsを数多く評価しましたが、最も高いパフォーマンスを発揮したモデルであるClaude-3.5 Sonnetでも平均精度はわずか3.37%であり、予想される基準を大きく下回っています。この研究は、複雑な空間推論と計画能力の向上を促進するための専門的な評価フレームワークを提供することを目的としています。コードはhttps://github.com/Thisisus7/ING-VP.gitで公開されています。
LLMにとって、指示に従うことは重要な能力です。しかし、最近の研究によると、LLMはしばしば複数の制約を含む指示(例:「面白いトーンでソーシャルメディア投稿を作成する」と「ハッシュタグなし」など)に苦労することが示されています。それにもかかわらず、ほとんどの評価は合成データに焦点を当てています。この問題に対処するために、私たちはRealInstructを導入します。これは、AIアシスタントにユーザーが尋ねたクエリを活用して、実世界の複数制約を持つ指示に従うLLMの能力を評価するために設計された初のベンチマークです。また、このタスクにおいて人間の注釈の費用効果的な代替手段として、モデルベースの評価を調査しています。私たちの調査結果によると、プロプライエタリなGPT-4モデルでさえ、指示の21%以上で少なくとも1つの制約を満たすことができないことが明らかになり、最先端のモデルの限界が浮き彫りにされています。オープンソースとプロプライエタリモデルの性能差を解消するために、私たちはDecompose、Critic、Refine(DeCRIM)自己修正パイプラインを提案しています。これにより、元の指示を制約のリストに分解し、Criticモデルを使用して、LLMの応答がどこでどのように改善が必要かを決定します。私たちの結果は、DeCRIMがMistralのRealInstructで7.3%、IFEvalで8.0%の性能向上をもたらし、弱いフィードバックでも成果を挙げることを示しています。さらに、強力なフィードバックを用いると、DeCRIMを備えたオープンソースのLLMが両方のベンチマークでGPT-4を上回ることを実証しています。
テキストから画像への拡散モデルが商業用途において十分に高度化するにつれて、その悪用や有害利用への懸念も高まっています。モデルのアンラーニングは、事前に学習されたモデルから望ましくない、潜在的に有害な情報を除去することでこれらの懸念を軽減するために提案されています。現時点では、アンラーニングの成功は主に、アンラーニングされたモデルが画像品質を維持しながら目標概念を生成できるかどうかで評価されています。しかし、アンラーニングは通常、限られたシナリオでテストされ、現行の文献ではアンラーニングの副作用がほとんど研究されていません。本研究では、5つの主要な側面でさまざまなシナリオ下でのアンラーニングを徹底的に分析します。私たちの調査により、すべての手法には副作用や制限があり、特により複雑で現実的な状況では顕著です。ソースコードやアーティファクトとともに包括的な評価フレームワークを公開することで、この分野でのさらなる研究を促進し、より信頼性の高い効果的なアンラーニング手法につながることを期待しています。
大規模言語モデル(LLM)は画像を統合していますが、グラフへの適応は依然として困難であり、材料や医薬品設計における応用が制限されています。この困難さは、テキストとグラフ全体での一貫した自己回帰生成が必要であることに起因しています。この課題に対処するために、私たちはLlamoleを導入します。これは、テキストとグラフの交互生成が可能な最初のマルチモーダルLLMであり、分子の逆合成設計をレトロ合成計画とともに実現します。Llamoleは、ベースLLMとGraph Diffusion Transformer、Graph Neural Networksを統合し、テキスト内での多条件分子生成と反応推論を可能にします。さらに、分子理解を強化したLLMが、異なるグラフモジュール間で柔軟に活性化を制御します。さらに、Llamoleは、効率的なレトロ合成計画のためにLLMベースのコスト関数とA*探索を統合します。私たちはベンチマークデータセットを作成し、Llamoleをインコンテキスト学習と監督されたファインチューニングと比較評価するために、包括的な実験を実施します。Llamoleは、制御可能な分子設計とレトロ合成計画の12のメトリックにわたり、14の適応LLMを大幅に上回る性能を発揮します。
最近導入された対話システムは高い使いやすさを示しています。しかし、それらはまだ現実世界の会話シナリオを反映するのには及んでいません。現在の対話システムは、複数のパートナーを巻き込むダイナミックで連続的で長期にわたる相互作用を複製する能力に欠けています。この欠点は、現実世界の対話の両側面を考慮する取り組みが限られていたために生じています。すなわち、長期にわたる対話での深く層状の相互作用と、複数の参加者を巻き込む広範な会話ネットワークです。これらの側面を組み合わせる取り組みとして、私たちはMixed-Session Conversationを導入します。これは、複数のパートナーとの会話を構築するために設計された対話システムです。このシステムを実装するためにMiSCという新しいデータセットを提案します。MiSCの対話エピソードは6つの連続セッションで構成され、各エピソードには4人のスピーカー(1人のメインスピーカーと3人のパートナー)が登場します。また、私たちは新しい対話モデルを提案しています。このモデルには、新しいメモリ管理メカニズムがあり、Egocentric Memory Enhanced Mixed-Session Conversation Agent(EMMA)と呼ばれています。EMMAは、パートナーとの会話中にメインスピーカーの視点から記憶を収集し保持することで、後続の相互作用においてシームレスな連続性を実現します。広範な人間の評価により、MiSCの対話が、各セッションで会話パートナーが変わってもシームレスな会話の流れを示していることが検証されています。MiSCで訓練されたEMMAは、会話全体を通じて矛盾なく高い記憶力を維持することも評価されています。
数千語に及ぶ長編ストーリーを物語の一貫性を保ちながら生成することは、大規模言語モデル(LLMs)を用いた難しい課題でした。これまでの研究では、物語の計画を立て、その計画に基づいて長編ストーリーを生成するさまざまなフレームワークを提案することで、この課題に取り組んできました。しかし、これらのフレームワークは、物語の一貫性を維持することに主眼を置いており、しばしば物語の計画立案における創造性やその計画から生成されるストーリーの表現力を見落としてきました。これらは、読者の興味を引くために望ましい特性です。本論文では、長編ストーリー生成プロセスにこれらの特性を促進する集合的批評家のための創造的ストーリー生成フレームワーク(CritiCS)を提案します。CritiCSは、計画の洗練段階(CrPlan)とストーリー生成段階(CrText)から構成され、複数のラウンドを通じて計画とストーリーの下書きを段階的に洗練する集合的修正メカニズムを統合しています。具体的には、各段階で、LLMの批評家グループと1人のリーダーが協力して、計画とストーリーの下書きを徐々に洗練していきます。広範な人間評価によると、CritiCSはストーリーの創造性と読者の関与を著しく向上させることが示されており、物語の一貫性も維持しています。さらに、このフレームワークの設計により、人間の作家が批評プロセス内の任意の役割で積極的に参加できるため、ストーリー執筆における人間と機械の相互作用を可能にしています。
TextToonという方法を提案します。これは、短い単眼ビデオシーケンスとアバタースタイルに関する指示文が与えられた場合、高品質なトゥーン化されたアバターを生成し、他のビデオによってリアルタイムで操作可能なものです。従来の関連研究は、幾何学を復元するためにテクスチャ埋め込みを介して静的な方法で提示される多視点モデリングに大きく依存しており、これにより制御が制限されています。また、多視点ビデオ入力は、これらのモデルを実世界のアプリケーションに展開することを難しくしています。これらの問題に対処するために、私たちは条件付き埋め込み三平面を採用して、ガウス変形フィールド内でリアルかつスタイリッシュな顔の表現を学習します。さらに、3Dガウススプラッティングのスタイリング能力を拡張するために、適応型ピクセル変換ニューラルネットワークを導入し、パッチに注意した対照的学習を活用して高品質の画像を実現します。私たちの作業を消費者向けアプリケーションに進展させるために、GPUマシンで48 FPS、モバイルマシンで15-18 FPSで動作するリアルタイムシステムを開発しました。幅広い実験により、品質とリアルタイムアニメーションの観点で既存の手法よりも優れたテキストアバターを生成するアプローチの効果を実証しています。詳細については、以下のプロジェクトページをご覧ください:https://songluchuan.github.io/TextToon/。
インコンテキストラーニング(ICL)とは、モデルがその文脈でいくつかの例を観察することで新しいタスクを学習する能力です。NLPで一般的ですが、この能力は最近、強化学習(RL)の設定でも観察されています。ただし、従来のインコンテキストRL手法は、エージェントの文脈で完全なエピソードを必要としていました。複雑な環境が通常、報酬が少ない長いエピソードにつながるため、これらの手法は短いエピソードを持つ単純な環境に制約されています。これらの課題に対処するために、私たちはRetrieval-Augmented Decision Transformer(RA-DT)を導入します。RA-DTは、現在の状況に関連するサブトラジェクトのみを取得するために、過去の経験を格納する外部メモリメカニズムを使用します。RA-DTの検索コンポーネントはトレーニングを必要とせず、完全にドメインに依存しません。RA-DTの能力をグリッドワールド環境、ロボティクスシミュレーション、手続き的に生成されたビデオゲームで評価します。グリッドワールドでは、RA-DTはベースラインを上回り、それらの文脈長の一部しか使用しません。さらに、複雑な環境での現在のインコンテキストRL手法の制限を明らかにし、将来の方向性について議論します。将来の研究を支援するために、検討された環境のデータセットを公開します。
研究は、一般的なコードリポジトリにおいて、コピーされたコードや幻覚的なAI推奨を導入する敵対的な可能性を構築し評価します。OpenAI、Google、Anthropicなどの基盤となる大規模言語モデル(LLMs)は、有害な振る舞いと有毒な文字列の両方に対抗しますが、有害なプロンプトを埋め込む数学的解決策に関する以前の研究では、ガードレールが専門家の文脈によって異なることが示されています。これらの抜け穴は、質問の文脈が変わると専門家のモデルの混合物に現れ、有害なコメントをフィルタリングしたり、推奨される攻撃的な行動を減らすための悪質なトレーニング例が提供されるかもしれません。本研究は、基盤となるモデルが、明示的に促された場合には破壊的な行動を適切に提案しないことを示し、しかし、コンテキストの急な変化(例:コンピュータプログラミングの課題の解決)が提示されると、ガードを下ろしてしまう可能性があることを示しています。GitHub、NPM、NuGetなどのトロイの木馬をホストするリポジトリや、jsDelivrなどの人気のあるコンテンツ配信ネットワーク(CDN)など、攻撃面を拡大する例を示します。LLMの指示は、有益であるべきであり、例として、決意したドメインスクワッターが取得し、ナイーブにコピーされたコードからトリガーされる攻撃モバイルインフラを設定できるアプリケーションプログラミングインターフェース(API)エンドポイントを提案します。この攻撃を、コンテキストのシフトに関する以前の研究と比較し、悪意のある文献における「土地で生活する」攻撃の新しいバージョンとして攻撃面を対照します。後者の場合、基盤となる言語モデルは、コーディングサポートリクエストなしで直接提示された場合、所有者の安全ポリシーに違反する行動を推奨するために、本来は無害なユーザープロンプトを乗っ取ることができます。
ピアノ演奏には、器用で正確かつ協調した手の制御が必要であり、その器用さの限界に挑戦します。ピアノ演奏を正確に再現する洗練された手の動きモデルは、キャラクターアニメーション、具現化AI、生体力学、VR/ARなど、さまざまな応用があります。本論文では、約10時間の3D手の動きと15人のエリートピアニストによる153曲のクラシック音楽演奏からなる初の大規模データセットを構築します。自然な演奏を捉えるため、最先端のポーズ推定モデルを使用してマルチビュー動画から再構築されるマーカーレスセットアップを設計しました。動きデータは、専用のYamaha Disklavierピアノのセンサーから得られた高解像度のMIDIキープレスデータを使用して逆運動学を介してさらに洗練されます。収集したデータセットを活用して、データセット外の楽譜に対して物理的に妥当な手の動きを合成できるパイプラインを開発しました。当社の手法は、模倣学習と強化学習の組み合わせを用いて、手とピアノキーの相互作用を含む物理ベースの両手制御のポリシーを取得します。大規模な動きデータセットにおけるサンプリング効率の問題を解決するために、拡散モデルを使用して自然なリファレンスモーションを生成し、高レベルの軌道とフィンガリング(指の順序と配置)情報を提供します。ただし、生成されたリファレンスモーションだけでは、ピアノ演奏モデリングに十分な精度を提供しません。その後、RLポリシーの精度を向上させるために、捕捉されたデータセットから類似の動きを取得するために音楽の類似性を使用してデータをさらに拡張しました。提案された手法により、当社のモデルは、トレーニングデータセット外の音楽にも適用可能な自然で器用な動きを生成します。
AIエージェントの機械学習エンジニアリングにおけるパフォーマンスをどのように測定するかを評価するためのベンチマークであるMLE-benchを紹介します。このために、Kaggleから75の機械学習エンジニアリングに関連する競技会を収集し、モデルのトレーニング、データセットの準備、実験の実行など、実世界の機械学習エンジニアリングスキルをテストする様々な難しいタスクを作成しました。各競技会について、Kaggleの公開されているリーダーボードを使用して人間のベースラインを確立しました。また、オープンソースのエージェントスキャフォールドを使用して、複数の最先端言語モデルを当社のベンチマークで評価し、最も優れたセットアップであるOpenAIのo1-previewとAIDEスキャフォールディングを使用すると、競技会の16.9%で少なくともKaggleのブロンズメダルのレベルに到達することが分かりました。主な結果に加えて、AIエージェントのリソーススケーリングのさまざまな形式や事前トレーニングからの汚染の影響について調査しました。AIエージェントの機械学習エンジニアリング能力を理解するための将来の研究を促進するために、当社のベンチマークコード(github.com/openai/mle-bench/)をオープンソースで公開しています。
現実世界のソフトウェア開発において、不適切または不足した例外処理はコードの堅牢性と信頼性に深刻な影響を与える可能性があります。例外処理メカニズムは、開発者が高い基準に従って例外を検出、キャプチャし、管理する必要がありますが、多くの開発者がこれらのタスクに苦労しており、脆弱なコードを生み出しています。この問題はオープンソースプロジェクトに特に顕著であり、ソフトウェアエコシステム全体の品質に影響を与えています。この課題に対処するために、私たちは大規模言語モデル(LLMs)の活用を通じてコードの例外処理を改善することを探求しています。包括的な分析を通じて、以下の3つの主要な問題を特定しました:脆弱なコードの感知の不適切さ、例外タイプの不正確なキャプチャ、および歪んだ処理解決策。これらの問題は現実世界のリポジトリ全体に広く見られ、堅牢な例外処理の実践がしばしば見落とされたり誤って取り扱われたりしていることを示唆しています。これに対応するために、私たちは例外処理のための専門開発者の戦略に着想を得たマルチエージェントフレームワークであるSeekerを提案します。Seekerは、スキャナ、ディテクタ、プレデタ、ランカー、ハンドラというエージェントを使用して、LLMsが例外をより効果的に検出、キャプチャ、解決するのを支援します。私たちの研究は、LLMsを活用して例外処理の実践を向上させる初めての体系的な研究であり、コードの信頼性の将来の改善に向けた貴重な示唆を提供しています。
画像拡散モデルにおいて、複数ビューの整合性は依然として課題となっています。幾何学的な対応が事前に既知であるText-to-Texture問題においてさえ、多くの手法がビュー間で整合した予測を生成できず、結果を元のメッシュに組み込むために複雑な融合手法が必要となります。本研究では、PBR Text-to-TextureにおけるCollaborative Controlワークフローにおけるこの問題を探究します。Collaborative Controlは、PBR画像の確率分布を直接モデリングし、法線バンプマップを含みます。私たちの知る限り、唯一の拡散モデルで完全なPBRスタックを直接出力するものです。このモデルを複数ビューで整合性を持たせるための設計上の決定について議論し、私たちのアプローチの有効性を消融研究や実用的な応用において示します。
精神保健障害は世界で最も深刻な疾病の1つです。そのような疾患を持つ多くの人々が適切なケアにアクセスできないことが多いため、精神保健障害の診断と治療のためのモデルのトレーニングの重要性が強調されます。しかし、精神保健領域では、プライバシー上の懸念が個別化された治療データへのアクセスを制限し、強力なモデルの構築を困難にしています。本論文では、MentalArenaというセルフプレイフレームワークを紹介し、ドメイン固有の個別化されたデータを生成することで言語モデルをトレーニングし、個別化された診断と治療(セラピストとして)を行い、情報提供(患者として)ができるより優れたモデルを獲得します。人間らしい精神保健患者を正確にモデリングするために、認知と行動の両面から実際の患者をシミュレートするSymptom Encoderを考案します。患者とセラピストの相互作用中の意図の偏りに対処するために、診断された症状とエンコードされた症状を比較し、特定された逸脱に応じて患者とセラピストの対話を動的に管理するSymptom Decoderを提案します。MentalArenaを、biomedicalQAや精神保健タスクを含む6つのベンチマークと比較して、6つの先進モデルに対して評価しました。GPT-3.5とLlama-3-8bの両方でファインチューニングされた当社のモデルは、GPT-4oを含む対照モデルを大幅に上回りました。私たちの研究が将来の個別化ケアに関する研究にインスピレーションを与えることを願っています。コードはhttps://github.com/Scarelette/MentalArena/tree/main で入手可能です。
本論文では、感情の推論と分類のための小規模なマルチモーダル言語モデルファミリーであるTinyEmoを紹介します。当アプローチには以下が特徴として挙げられます:(1) 事前学習および微調整段階のための合成感情指示データセット、(2) 言語モデルからの分類を委任するメトリックプロジェクタにより、より効率的なトレーニングと推論が可能となります、(3) 感情の推論のためのマルチモーダル大規模言語モデル(MM-LLM)、および(4) バイアス検出のための半自動フレームワーク。TinyEmoは、類似のモデルよりもはるかに少ないパラメータを使用しながら、感情分類と感情の推論を実行できます。この効率性により、より多様な感情データセットを自由に組み込むことが可能となり、700Mパラメータの最小モデルですら、一般的な用途向けMM-LLMに基づく7Bパラメータを超える大規模な最先端モデルを上回る性能を発揮します。さらに、メトリックプロジェクタにより、追加のトレーニングなしで大規模モデルにおける解釈可能性と間接的なバイアス検出が可能となり、AIシステムの理解と改善の手法を提供します。 コード、モデル、およびデータセットは、https://github.com/ggcr/TinyEmo で公開しています。
最近の大規模言語モデル(LLMs)の進歩により、自然言語処理(NLP)の分野で、テキスト理解や推論などの課題においてAIが人間を凌駕するという主張がなされています。本研究は、項目反応理論(IRT)に基づく新しいフレームワークであるCAIMIRAを導入することで、人間とAIシステムの問題解決能力を定量的に評価・比較することで、これらの主張を調査しています。約70のAIシステムと155人間からの30万以上の回答を分析することで、CAIMIRAは、知識領域と推論スキルにおける異なる熟練度パターンを明らかにします。人間は、知識に基づく帰納的および概念的推論においてAIシステムを上回りますが、GPT-4やLLaMAなどの最先端のLLMsは、情報の取得や事実に基づく推論において優れた性能を示します。特に、情報の欠如が明確であり、パターンマッチングやデータ検索を通じて対処可能な場合に優れたパフォーマンスを発揮します。これらの知見は、将来のQA課題が、高次の推論や科学的思考だけでなく、微妙な言語解釈や複合的な知識応用を要求する問題に焦点を当てる必要性を強調し、現実世界の問題解決において人間の認知能力をよりよく模倣または補完するAIの発展を支援することが求められます。
埋め込みモデルは、意味の類似性、情報検索、クラスタリングなどのさまざまな下流タスクを可能にする上で重要である。最近、タスク全般に汎用的に適用できるテキスト埋め込みモデルの開発に関心が高まっており(例:MTEB)、その重要性にもかかわらず、汎用的なマルチモーダル埋め込みモデルの学習の進展は比較的遅れている。本研究では、幅広い下流タスクを処理できる汎用埋め込みを構築する可能性を探求することを目指す。当該研究の貢献は2つあります:(1)MMEB(Massive Multimodal Embedding Benchmark)、4つのメタタスク(分類、ビジュアル質問応答、マルチモーダル検索、ビジュアルグラウンディング)と20のトレーニングデータセットと16の評価データセットを含む36のデータセットをカバーするもの、および(2)VLM2Vec(Vision-Language Model -> Vector)、MMEBでのトレーニングを通じて任意の最先端ビジョン言語モデルを埋め込みモデルに変換する対照的なトレーニングフレームワーク。CLIPやBLIPなどの従来のモデルとは異なり、VLM2Vecは、タスクの指示に基づいて画像とテキストの任意の組み合わせを処理し、固定次元のベクトルを生成できる。Phi-3.5-V上で一連のVLM2Vecモデルを構築し、MMEBの評価分割で評価する。結果は、当該モデルがMMEBのイン・ディストリビューションおよびアウト・オブ・ディストリビューションデータセットの両方で、既存のマルチモーダル埋め込みモデルに対して10%から20%の絶対平均改善を達成したことを示している。
ビジョン言語モデル(VLM)を評価するための現行のベンチマークは、しばしばその知覚や問題解決能力に焦点を当て、公平性、多言語性、有害性などの他の重要な側面を無視しています。さらに、評価手順や評価の範囲が異なるため、モデルを比較することが困難です。これらの問題に対処するために、私たちはHELMフレームワークをVLMに拡張し、ビジョン言語モデルのホリスティック評価(VHELM)を提案します。VHELMは、視覚認識、知識、推論、偏り、公平性、多言語性、堅牢性、有害性、安全性の9つの側面のいずれかをカバーするためにさまざまなデータセットを集約します。これにより、これらの重要な要素にわたるVLMの能力の包括的で多次元的な視点を提供します。さらに、公平な比較を可能にするために、標準推論パラメータ、プロンプト方法、評価メトリクスを標準化します。私たちのフレームワークは軽量で自動化されており、評価ランは安価で迅速です。初回ランでは、22のVLMを21の既存データセットで評価し、モデルの包括的なスナップショットを提供します。Claude 3 HaikuやGemini 1.5 Flashなどの効率重視のモデルが、他の側面で評価される際には問題がないが、バイアスのベンチマークでは完全なモデル(Claude 3 OpusやGemini 1.5 Proなど)よりも著しく性能が低いという新たな重要な発見を明らかにしました。透明性のために、私たちは生のモデル生成物と完全な結果をウェブサイト(https://crfm.stanford.edu/helm/vhelm/v2.0.1)で公開しています。VHELMは生きたベンチマークであり、将来的に新しいデータセットやモデルを追加していくことを期待しています。
英語中心の大規模言語モデル(LLM)はしばしば強力な多言語能力を示します。ただし、これらのモデルの多言語性能は依然として不明確であり、多くの言語について徹底的に評価されていません。多言語性のほとんどのベンチマークは、古典的な自然言語処理(NLP)タスクに焦点を当てているか、ごく少数の言語をカバーしています。私たちは、MEXAという、既存のダウンストリームタスクよりも多言語に利用可能な平行文を使用して、事前学習された英語中心のLLMの多言語能力を評価する方法を紹介します。MEXAは、英語中心のLLMが中間層で英語を一種の枢軸言語として使用しているという事実を活用しています。MEXAは、英語と非英語の言語との間のアラインメントを計算し、平行文を使用して英語から他の言語への言語理解の転送を評価します。このアラインメントは、他の言語でのモデルの性能を推定するために使用できます。私たちは、さまざまな平行データセット(FLORES-200およびBible)、モデル(Llamaファミリー、Gemmaファミリー、Mistral、OLMo)、および確立されたダウンストリームタスク(Belebele、m-MMLU、m-ARC)を使用して研究を行います。デコーダーのみのモデルで埋め込みを計算するための異なる方法を探ります。私たちの結果は、MEXAがデフォルト設定で、9つのモデルと2つの平行データセットにわたる3つの確立されたダウンストリームタスクとの平均ピアソン相関係数0.90を統計的に有意な水準で達成することを示しています。これは、MEXAが英語中心のLLMの多言語能力を推定するための信頼性のある方法であり、彼らの多言語潜在能力とLLMの内部機能をより明確に理解する手助けをしています。リーダーボード: https://huggingface.co/spaces/cis-lmu/Mexa、コード: https://github.com/cisnlp/Mexa.
再帰ニューラルネットワーク(RNN)がトランスフォーマーベースの言語モデルに対して持つ重要な利点の1つは、シーケンス長に関する線形計算の複雑さであり、これにより推論中に長いシーケンスを処理する際にはるかに高速になります。ただし、ほとんどの公開されているRNN(例:MambaおよびRWKV)は、1万トークン未満のシーケンスで訓練されており、これまでに長い文脈での効果が不十分であることが大きな問題となっています。本論文では、RNNが長い文脈を処理できない原因を研究し、重要な緩和策を提案します。最先端のRNNを長い文脈に適用する際の2つの実用的な懸念を検討します:(1)訓練長よりも長い入力に外挿できないこと、および(2)メモリ容量の上限。最初の懸念に対処するために、まず、*state collapse*(SC)という現象を調査します。これは、訓練中に遭遇しなかったシーケンス長での性能劣化を引き起こす現象です。制御された実験により、これを訓練長に対して再帰状態が過剰にパラメータ化されることによる過学習と特定します。2つ目の懸念に対して、長い文書で一連のMamba-2モデルを訓練し、言語モデリングとパスキー検索における再帰状態の容量を経験的に推定します。その後、Mamba-2の長さの一般化性を向上させるために3つのSC緩和方法が提案され、モデルがSCなしで100万トークン以上を処理できるようになります。また、パスキー検索における再帰状態の容量は状態サイズに指数関数的にスケールし、256Kのコンテキスト長でほぼ完璧なパスキー検索精度を持つMamba-2 370Mを経験的に訓練します。これは、RNNに基づく長い文脈モデリングに有望な未来を示唆しています。
まだです。私たちはSPACEを提案します。これは、フロンティアモデルにおける空間認知を体系的に評価するベンチマークです。当該ベンチマークは、認知科学の数十年にわたる研究に基づいて構築されています。このベンチマークは、生物が物理環境を横断する際に必要とされる大規模なマッピング能力、物体の形状や配置に関する小規模な推論、および空間的注意や記憶などの認知インフラを評価します。多くのタスクでは、テキストと画像の並列表示を具体化し、大規模言語モデルと大規模多モーダルモデルの両方をベンチマークすることが可能です。結果からは、現代のフロンティアモデルが動物の空間知能には及ばず、動物の認知の古典的なテストのいくつかで、ほぼ偶然のレベルで実行されることが示唆されています。