翻訳付きの日次キュレーションされたAI研究論文
ゼロショットテキスト音声合成は、未見の音声プロンプトを用いて声を合成することを目指しています。これまでの大規模マルチスピーカーTTSモデルは、10秒以内の登録録音を用いてこの目標を達成することに成功してきました。しかし、その多くは短い音声プロンプトのみを利用するように設計されています。短い音声プロンプトに含まれる限られた情報は、細かなアイデンティティの模倣性能を大幅に妨げます。本論文では、任意の長さのプロンプトを用いて未見の話者の音声を合成可能な汎用的なゼロショットマルチスピーカーTTSモデル、Mega-TTS 2を紹介します。具体的には、1) 複数の参照音声から音色情報を抽出するマルチリファレンス音色エンコーダを設計し、2) 任意の長さの音声プロンプトを用いてプロソディ言語モデルを訓練します。これらの設計により、我々のモデルは異なる長さのプロンプトに適応可能であり、ゼロショットテキスト音声合成の音質の上限を拡張します。任意の長さのプロンプトに加えて、複数のP-LLM出力から得られる確率を活用して表現力豊かで制御されたプロソディを生成する任意ソースプロンプトを導入します。さらに、コンテキスト内学習能力を持続時間モデリングに導入するために、音素レベルの自己回帰型持続時間モデルを提案します。実験結果は、我々の手法が未見の話者の短いプロンプトを用いてアイデンティティを保持した音声を合成できるだけでなく、より長い音声プロンプトを用いることで性能が向上することを示しています。音声サンプルはhttps://mega-tts.github.io/mega2_demo/で確認できます。
大規模言語モデル(LLM)は、文脈内学習の能力を示し、少数の入力-出力例に基づいて様々なタスクを実行できることが実証されています。しかし、文脈内学習の効果は、選択された例の品質に大きく依存します。本論文では、LLM向けに高品質な文脈内例を特定できる密な検索モデルを反復的に訓練する新しいフレームワークを提案します。我々のフレームワークは、まずLLMのフィードバックに基づいて候補例の品質を評価する報酬モデルを訓練し、その後、知識蒸留を用いて双方向エンコーダベースの密な検索モデルを訓練します。30のタスクセットでの実験により、このフレームワークが文脈内学習の性能を大幅に向上させることが示されました。さらに、訓練中に見られなかったタスクに対するフレームワークの汎化能力も確認されています。詳細な分析により、我々のモデルが類似したパターンを持つ例を検索することで性能を向上させ、その効果が様々なサイズのLLMにわたって一貫していることが明らかになりました。
本研究では、生成ネットワークを活用した自己教師あり特徴表現学習フレームワーク「DreamTeacher」を提案します。このフレームワークは、下流の画像バックボーンを事前学習するために使用されます。私たちは、特定の知覚タスク向けに最適化された標準的な画像バックボーンに、訓練済みの生成モデルから知識を蒸留することを提案します。2種類の知識蒸留を調査しました:1)大規模なラベル付きデータセット(例:ImageNet)での事前学習の代替として、学習された生成特徴をターゲット画像バックボーンに蒸留する方法、2)生成ネットワークとタスクヘッドから得られたラベルをターゲットバックボーンのロジットに蒸留する方法です。複数の生成モデル、密な予測ベンチマーク、およびいくつかの事前学習体制について広範な分析を行いました。実験的に、私たちのDreamTeacherが既存の自己教師あり表現学習アプローチを全体的に大幅に上回ることを確認しました。DreamTeacherを用いた教師なしImageNet事前学習は、下流データセットにおけるImageNet分類事前学習を大幅に改善し、特に拡散生成モデルを含む生成モデルが、大規模で多様なデータセットにおける手動アノテーションを必要としない表現学習の有望なアプローチであることを示しています。
シーン内の物体と相互作用する人間のリアルな3Dモーション生成の問題に取り組みます。私たちの鍵となるアイデアは、特定の物体に付随するニューラル相互作用場を作成し、人間の姿勢を入力として与えられた際に有効な相互作用多様体までの距離を出力することです。この相互作用場は、物体条件付き人間モーションディフュージョンモデルのサンプリングを導き、もっともらしい接触とアフォーダンス意味論を促進します。データがほとんど利用できない相互作用をサポートするために、自動化された合成データパイプラインを提案します。このために、限られたモーションキャプチャデータから抽出された相互作用固有のアンカーポーズを用いて、人間の基本的な動きに関する事前知識を持つ事前学習済みモーションモデルをシードします。生成された合成データで訓練されたガイド付きディフュージョンモデルを使用して、いくつかの物体に対する座る動作や持ち上げる動作のリアルなモーションを合成し、モーションの品質とアクションの成功完了において代替アプローチを上回ります。私たちはこのフレームワークをNIFTY: Neural Interaction Fields for Trajectory sYnthesisと呼びます。