翻訳付きの日次キュレーションされたAI研究論文
テキストから音楽を生成するモデルは、現在、幅広いスタイルで高品質な音楽オーディオを生成することが可能である。しかし、テキストによる制御は、ジャンル、ムード、テンポなどのグローバルな音楽属性の操作には適しているものの、時間的に変化する属性、例えばビートの位置や音楽のダイナミクスの変化など、に対する精密な制御にはあまり適していない。本論文では、生成されたオーディオに対して複数の精密な時間的制御を提供する拡散ベースの音楽生成モデルであるMusic ControlNetを提案する。テキストから音楽を生成するモデルに時間的制御を付与するために、画像領域のControlNet手法におけるピクセル単位の制御に類似したアプローチを提案する。具体的には、トレーニング用オーディオから制御信号を抽出してペアデータを作成し、メロディ、ダイナミクス、リズムの制御信号を条件としてオーディオスペクトログラム上で拡散ベースの条件付き生成モデルをファインチューニングする。画像領域のUni-ControlNet手法は既に任意の制御信号のサブセットを用いた生成を可能にしているが、我々は、制作者が時間的に部分的に指定された制御信号を入力できるようにする新しい戦略を考案する。オーディオから抽出された制御信号と、制作者が提供すると予想される制御信号の両方について評価を行い、両方の設定において制御入力に対応する現実的な音楽を生成できることを示す。比較可能な音楽生成モデルはほとんど存在しないが、テキストとメロディ入力を受け入れる最近のモデルであるMusicGenと比較し、我々のモデルが入力メロディに対して49%高い忠実度で音楽を生成することを示す。これは、パラメータ数が35分の1、トレーニングデータ量が11分の1でありながら、さらに2つの時間的制御を可能にしている。音声サンプルはhttps://MusicControlNet.github.io/web/で確認できる。
本技術レポートでは、オンライン方式でLLMベースのキャラクターに対して、視覚的外観、性格、話し方を含む擬人化されたペルソナをテキスト記述のみから生成することを目指します。これを実現するため、まずLLMの文脈内学習能力を活用し、慎重に設計されたシステムプロンプトセットを用いて性格生成を行います。次に、多様な音声と外観生成のための2つの新しい概念、音声の混合(MoV)と拡散モデルの混合(MoD)を提案します。MoVでは、テキスト音声合成(TTS)アルゴリズムを多様な事前定義された話し方と組み合わせ、ユーザー提供のテキスト記述に基づいて最も適合するものを自動的に選択します。MoDでは、最近普及しているテキスト画像生成技術とトーキングヘッドアルゴリズムを組み合わせ、トーキングオブジェクト生成プロセスを効率化します。我々はこの全体フレームワークをChatAnythingと名付けました。これにより、ユーザーはわずかなテキスト入力で、擬人化された任意のペルソナを持つものをアニメーション化できるようになります。しかし、現在の生成モデルが生み出す擬人化オブジェクトは、事前学習済みの顔ランドマーク検出器で検出できないことが多く、顔の動き生成に失敗するという問題が観察されています。これらの顔が人間のような外観を持っていても、それらの画像はトレーニング中にほとんど見られないため(例:OODサンプル)です。この問題に対処するため、画像生成段階で人間の顔ランドマークを注入するピクセルレベルガイダンスを組み込みます。これらの指標をベンチマークするため、評価データセットを構築しました。これに基づき、顔ランドマークの検出率が57.0%から92.5%に大幅に向上し、生成された音声内容に基づく自動顔アニメーションが可能になることを確認しました。コードと詳細な結果はhttps://chatanything.github.io/でご覧いただけます。
ストーリーから自然な人間の動きを生成することは、アニメーション、ゲーム、映画産業の風景を一変させる可能性を秘めています。長文の記述に基づいてキャラクターがさまざまな場所に移動し、特定の動きを実行する必要がある場合、新たで挑戦的なタスク「Story-to-Motion」が生まれます。このタスクは、低レベルの制御(軌跡)と高レベルの制御(動きの意味論)の融合を要求します。これまでのキャラクター制御やテキストから動きを生成する研究は関連する側面を扱ってきましたが、包括的な解決策は未だ見つかっていません。キャラクター制御手法はテキスト記述を扱わず、テキストから動きを生成する手法は位置制約を欠き、しばしば不安定な動きを生成します。これらの制限を踏まえ、私たちは入力テキストに沿った制御可能で無限に長い動きと軌跡を生成する新しいシステムを提案します。(1) 現代の大規模言語モデルを活用し、テキスト駆動の動きスケジューラとして機能させ、長文から一連の(テキスト、位置、持続時間)のペアを抽出します。(2) 動きの意味論と軌跡制約を組み込んだテキスト駆動の動き検索スキームを開発します。(3) 遷移動画における不自然なポーズや足の滑りなどの一般的なアーティファクトに対処するプログレッシブマスクトランスフォーマーを設計します。Story-to-Motionの最初の包括的解決策としての先駆的な役割を超え、私たちのシステムは軌跡追従、時間的アクション合成、動きブレンディングという3つの異なるサブタスクで評価され、従来の最先端の動き合成手法を全面的に上回る性能を示しました。ホームページ: https://story2motion.github.io/。
GPT-4Vに代表されるマルチモーダル基盤モデルは、低レベル視覚知覚と理解タスクに新たなパラダイムをもたらし、幅広い自然な人間の指示に応答できるモデルを実現しました。既存の基盤モデルは低レベル視覚タスクにおいて有望な可能性を示していますが、その関連能力はまだ初歩的であり、改善が必要です。これらのモデルを強化するため、私たちは大規模な主観実験を実施し、低レベル視覚に関する膨大な量の実際の人間のフィードバックを収集しました。各フィードバックは、画像の明瞭さ、色、明るさなどの低レベル視覚的外観に関する詳細な説明から始まり、全体の結論で終わる経路をたどり、平均45語の長さを持ちます。構築された**Q-Pathway**データセットには、多様な低レベル外観を持つ18,973枚の画像に対する58,000件の詳細な人間のフィードバックが含まれています。さらに、基盤モデルが多様なタイプの質問に堅牢に応答できるようにするため、これらのフィードバックを多様な形式の20万件の指示-応答ペアに変換するGPT参加型のプロセスを設計しました。実験結果は、**Q-Instruct**が複数の基盤モデルにおいて低レベル知覚と理解能力を一貫して向上させることを示しています。私たちのデータセットが、汎用知能が人間のように低レベル視覚的外観を認識し、理解し、視覚品質を評価できる未来への道を開くことを期待しています。私たちのデータセット、モデルライブラリ、デモは以下で公開されています: https://q-future.github.io/Q-Instruct.
既存の視覚的指示チューニング手法では、通常、大規模言語モデルにテキスト記述をプロンプトとして与え、指示追従データを生成します。有望な性能が達成されているものの、これらの記述は画像アノテーションから派生しており、しばしば粗粒度です。さらに、視覚的コンテキスト全体を観察せずに、指示が視覚的コンテンツと矛盾する可能性もあります。この課題に対処するため、我々は細粒度の視覚的指示データセットであるLVIS-Instruct4Vを導入しました。このデータセットは、LVISの画像を用いて強力なGPT-4Vをプロンプトすることで生成された、22万件の視覚的に整合性がありコンテキストを意識した指示を含んでいます。実験的検証とケーススタディを通じて、高品質な視覚的指示データが、最先端の大規模マルチモーダルモデルであるLLaVA-1.5の性能を、幅広いベンチマークで明確な差をもって向上させることができることを示しました。特に、LLaVA-Instructを我々のLVIS-Instruct4Vに置き換えるだけで、最も挑戦的なLMMベンチマークにおいてLLaVAを上回る結果を達成しました。例えば、LLaVA^w(76.7対70.7)やMM-Vet(40.2対35.4)などです。我々はデータとモデルをhttps://github.com/X2FD/LVIS-INSTRUCT4Vで公開しています。
家庭や倉庫などの実環境での展開において、モバイルロボットは長期間にわたって自律的にナビゲーションを行い、人間のオペレーターが直感的に理解できる形で表現されたタスクをシームレスに実行することが期待されています。本論文では、これらの要件に対応可能な汎用ナビゲーションシステム「GO To Any Thing(GOAT)」を提案します。GOATは以下の3つの主要な特徴を備えています:a) マルチモーダル:カテゴリラベル、ターゲット画像、言語記述など多様な形式で指定された目標に対応可能、b) ライフロング:同一環境での過去の経験を活用可能、c) プラットフォーム非依存:異なる形態のロボットに迅速に導入可能。GOATは、モジュール型システム設計と、カテゴリレベルの意味情報に加えて異なる視点からの物体の外観を追跡する継続的に拡張されるインスタンス認識型セマンティックメモリによって実現されています。これにより、GOATは同一カテゴリ内の異なるインスタンスを区別し、画像や言語記述で指定されたターゲットへのナビゲーションを可能にします。9つの異なる家庭環境で90時間以上にわたる実験比較において、200以上の異なる物体インスタンスから選ばれた675の目標に対して、GOATは83%の総合成績率を達成し、従来手法やアブレーション研究を32%(絶対値)上回りました。GOATは環境での経験を重ねることで性能が向上し、最初の目標では60%の成功率でしたが、探索後には90%の成功率に達しました。さらに、GOATがピックアンドプレースやソーシャルナビゲーションなどの下流タスクにも容易に適用可能であることを実証しました。
我々は、モデル重み、チューニングタスク、視覚的埋め込みを共同で混合した多目的なマルチモーダル大規模言語モデル(MLLM)であるSPHINXを提案する。まず、より強力な視覚と言語の整合性を実現するため、事前学習中に大規模言語モデル(LLM)を凍結解除し、実世界データと合成データで訓練されたLLM間の重み混合戦略を導入する。二つのドメインからの重みを直接統合することで、混合LLMは多様な意味論を効率的に取り込み、良好なロバスト性を発揮する。次に、多目的な能力を可能にするため、共同視覚指示チューニングのために様々なタスクを混合し、タスク間の衝突を避けるためにタスク固有の指示を設計する。基本的な視覚的質問応答に加えて、領域レベルの理解、キャプションのグラウンディング、ドキュメントレイアウト検出、人間の姿勢推定など、より挑戦的なタスクを含めることで、異なるシナリオ間での相互強化に貢献する。さらに、様々なネットワークアーキテクチャ、事前学習パラダイム、情報粒度から包括的な視覚的埋め込みを抽出し、言語モデルによりロバストな画像表現を提供する。我々が提案する共同混合に基づき、SPHINXは幅広いアプリケーションにおいて優れたマルチモーダル理解能力を示す。これに加えて、高解像度画像の細かい外観をより良く捉えるための効率的な戦略をさらに提案する。異なるスケールと高解像度のサブ画像を混合することで、SPHINXは既存の評価ベンチマークで卓越した視覚的解析と推論性能を達成する。我々の研究が、将来のMLLM研究における共同混合の探求に光を当てることを期待する。コードはhttps://github.com/Alpha-VLLM/LLaMA2-Accessoryで公開されている。
本論文では、スマートフォンのグラフィカルユーザーインターフェース(GUI)ナビゲーションタスク向けのGPT-4VベースのエージェントであるMM-Navigatorを紹介します。MM-Navigatorは、人間のユーザーと同様にスマートフォンの画面と対話し、与えられた指示を達成するための次のアクションを決定することができます。我々の研究結果は、大規模マルチモーダルモデル(LMM)、特にGPT-4Vが、高度な画面解釈、アクション推論、および正確なアクション位置特定能力を活用して、ゼロショットGUIナビゲーションにおいて優れた性能を発揮することを示しています。まず、MM-Navigatorを収集したiOS画面データセットでベンチマークしました。人間による評価によると、システムはiOS上での単一ステップの指示に対して、合理的なアクション記述を生成する精度が91%、正しいアクションを実行する精度が75%を示しました。さらに、Android画面ナビゲーションデータセットのサブセットでモデルを評価し、モデルがゼロショット方式で従来のGUIナビゲーターを上回る性能を示しました。我々のベンチマークと詳細な分析は、GUIナビゲーションタスクの将来の研究に向けた堅固な基盤を築くことを目指しています。プロジェクトページはhttps://github.com/zzxslp/MM-Navigatorにあります。
近年、大規模言語モデル(LLM)の研究が急速に進展し、自然言語処理(NLP)の複数のタスクにおいて大きな進歩が見られています。これに伴い、LLMの能力と限界を理解するための評価研究も急増しています。しかし、その多くは英語に限定されており、非英語言語におけるLLMの構築と評価は比較的未開拓のままです。新たにいくつかのLLMが導入されたことで、非英語言語での評価が必要とされています。本研究では、MEGAベンチマークスイートを拡張し、6つの新しいデータセットを含むMEGAVERSEベンチマークを形成することを目指しています。このベンチマークは、低リソースのアフリカ言語を含む81言語をカバーする22のデータセットで構成されています。GPT-3.5-Turbo、GPT4、PaLM2、Llama2といった最先端のLLMをMEGAVERSEデータセットで評価します。さらに、ベンチマークに2つのマルチモーダルデータセットを含め、LLaVa-v1.5モデルの性能を評価します。実験結果から、GPT4とPaLM2が特に低リソース言語においてLlamaモデルを上回り、GPT4がPaLM2よりも多くのデータセットで優れていることが示唆されています。ただし、非英語言語におけるLLMの性能を正確に評価するためには、データ汚染などの問題に対処する必要があります。
近年、自然言語処理分野における画期的な進展により、強力な大規模言語モデル(LLM)が登場し、自然言語の理解、生成、翻訳をはじめ、言語処理を超えたタスクに至るまで、幅広い領域で驚異的な能力を発揮しています。本報告書では、最先端の言語モデルであるGPT-4に焦点を当て、科学発見の文脈におけるLLMの性能について探求します。私たちの調査は、創薬、生物学、計算化学(密度汎関数理論(DFT)および分子動力学(MD))、材料設計、偏微分方程式(PDE)など、多岐にわたる科学分野に及びます。GPT-4を科学タスクで評価することは、さまざまな研究領域におけるその潜在能力を明らかにし、ドメイン固有の専門知識を検証し、科学の進歩を加速し、リソースの最適化を図り、将来のモデル開発を導き、学際的研究を促進するために極めて重要です。私たちの探求手法は、主に専門家によるケース評価から成り、これによりモデルが複雑な科学的概念や関係をどの程度理解しているかについて定性的な洞察を得ます。また、時にはベンチマークテストも行い、モデルが明確に定義されたドメイン固有の問題を解決する能力を定量的に評価します。私たちの予備的な探求によると、GPT-4はさまざまな科学アプリケーションにおいて有望な潜在能力を示し、複雑な問題解決や知識統合タスクを扱う能力を発揮しています。概して、私たちはGPT-4の知識ベース、科学的理解力、科学的数値計算能力、およびさまざまな科学的予測能力を評価しています。
大規模言語モデル(LLM)は、ウェブ規模のコーパスで訓練されており、その中には信頼性の異なる情報源から得られた矛盾する事実情報が必然的に含まれています。本論文では、信頼できる情報源整合性(Trusted Source Alignment, TSA)と呼ばれるLLMの特性を測定することを提案します。TSAとは、不確実性や論争が存在する状況において、信頼できる出版社が発信する内容にモデルが整合する傾向を指します。我々は、ファクトチェック記事のコーパスに基づいたTSA評価データセットであるFactCheckQAを提示します。また、TSAを評価するための簡潔なプロトコルを説明し、応答抽出、主張の文脈化、プロンプト作成におけるバイアスなどの設計上の考慮事項を詳細に分析します。このプロトコルをPaLM-2に適用した結果、モデルサイズを拡大するにつれて、FactCheckQAにおけるモデルの性能がほぼランダムな状態から、信頼できる情報源との整合性において最大80%のバランス精度に向上することが明らかになりました。
ユーザーの制約を高品質なレイアウトに自動的にマッピングする条件付きグラフィックレイアウト生成は、今日広く注目を集めています。最近の研究は有望な性能を達成していますが、汎用性とデータ効率の欠如が実用化を妨げています。本研究では、大規模言語モデル(LLM)を活用し、インコンテキスト学習を通じてこれらの問題に対処するLayoutPrompterを提案します。LayoutPrompterは、入力出力シリアライゼーション、動的例選択、レイアウトランキングの3つの主要コンポーネントで構成されています。具体的には、入力出力シリアライゼーションコンポーネントは、各レイアウト生成タスクの入力と出力の形式を綿密に設計します。動的例選択は、与えられた入力に対して最も有用なプロンプティング例を選択する役割を担います。そして、レイアウトランカーは、LLMの複数の出力から最高品質のレイアウトを選び出します。4つの公開データセットを使用して、既存のすべてのレイアウト生成タスクで実験を行いました。我々のアプローチの簡潔さにもかかわらず、実験結果は、LayoutPrompterがモデルのトレーニングやファインチューニングなしで、これらのタスクにおいて最先端のアプローチと競合し、あるいはそれを上回ることを示しています。これは、この汎用的でトレーニング不要なアプローチの有効性を実証しています。さらに、アブレーションスタディは、LayoutPrompterが低データ体制においてトレーニングベースのベースラインを大幅に上回ることを示し、LayoutPrompterのデータ効率をさらに示唆しています。我々のプロジェクトはhttps://github.com/microsoft/LayoutGeneration/tree/main/LayoutPrompterで公開されています。
T0、FLAN、OPT-IMLなどの大規模言語モデル(LLM)は、統一された指示追従パラダイムの下でマルチタスク処理に優れており、未見のタスクに対する驚異的な汎化能力も示しています。しかし、これらのLLMは、数十億から数千億のパラメータ規模を有しており、その訓練と推論には膨大な計算資源が必要で、コストが高く非効率です。さらに、特に複雑なタスクに対する下流アプリケーションへの適応は、プロンプトチューニングなどのパラメータ効率的な手法を用いる場合でも、ファインチューニングに必要なハードウェア要件の高さからしばしば実現不可能です。また、OPT-IML-175BやFLAN-PaLM-540Bといった最も強力なマルチタスクLLMは公開されておらず、そのカスタマイズ可能性が大幅に制限されています。これらの課題に対処するため、我々はマルチタスクLLMの性能と効率を向上させるために設計された事前学習済みの小型スコアラー、Cappyを紹介します。わずか3億6千万のパラメータを持つCappyは、分類タスクにおいて独立して機能するか、LLMの補助コンポーネントとしてその性能を向上させることができます。さらに、CappyはLLMのファインチューニングやパラメータへのアクセスを必要とせずに、下流の監督情報を効率的に統合することを可能にします。我々の実験では、PromptSourceの11の言語理解タスクにおいて、Cappyが桁違いに大規模なLLMを上回る性能を示しました。また、BIG-Benchの45の複雑なタスクでは、Cappyが先進的なマルチタスクLLMであるFLAN-T5の性能を大幅に向上させました。さらに、Cappyはファインチューニングやインコンテキスト学習などの他のLLM適応手法と柔軟に連携し、追加の性能向上を提供します。
本研究では、指示チューニングされたLlama-2モデルを拡張し、エンドツーエンドの汎用音声処理と推論能力を付与しながら、幅広いLLMの機能を維持します。これには、厳選されたペアデータを一切使用しません。提案モデルは、テキストの代わりに音声プロンプトを利用し、会話を継続することができます。また、このモデルは拡張されたクロスモーダル能力を有しており、音声質問応答、音声翻訳、音声要約など、多くのクローズドドメインおよびオープンドメインタスクを実行できます。これは、LLMを音声処理に拡張する従来のアプローチとは異なり、限られた事前設計タスクのみを扱うものでした。実験結果から、エンドツーエンドアプローチは、プロンプトへの応答モデリングにおいて、カスケードシステム(音声認識器+LLM)と同等かそれ以上の性能を示すことがわかりました。さらに、カスケードシステムとは異なり、本アプローチはテキストと音声モダリティを交換し、会話の前文脈を活用してより良い結果を提供する能力を示しています。
我々は、言語モデルのアラインメントに対するシンプルでありながら挑戦的なテストベッドとして、敵対的算術問題を導入し、その研究を行った。この問題は、自然言語で提示された算術問題に、質問が完了する前に任意の敵対的文字列が挿入されるというものである。1桁の足し算問題という単純な設定においても、PaLM2、GPT4、Claude2を含むすべてのテストされたモデルを誤動作させ、特定の誤った答えに誘導する敵対的プロンプトを容易に見つけることができる。さらに、我々はこれらのモデルにクエリを投げることで成功する攻撃を見つけるためのシンプルなアルゴリズムを提供し、これを「プロンプト反転拒否サンプリング」(PIRS)と名付けた。最後に、強化学習とエージェント的な憲法ループを通じて、これらの攻撃に対してモデルを部分的に強化できることを示した。しかし、言語モデルを敵対的算術攻撃に対して完全に堅牢にすることはできなかった。