翻訳付きの日次キュレーションされたAI研究論文
私たちは、人間の音声とほとんど区別がつかない音声を生成可能な大規模自己回帰型テキスト音声合成(TTS)モデル群であるSeed-TTSを紹介します。Seed-TTSは音声生成の基盤モデルとして機能し、文脈内学習において優れた性能を発揮し、客観的および主観的評価の両方で、話者類似性と自然さにおいて人間の音声に匹敵する結果を達成します。ファインチューニングを行うことで、これらの指標においてさらに高い主観的スコアを実現します。Seed-TTSは、感情などのさまざまな音声属性に対する優れた制御性を提供し、実世界の話者に対して非常に表現力豊かで多様な音声を生成することが可能です。さらに、音声の因数分解のための自己蒸留法と、モデルの堅牢性、話者類似性、制御性を向上させるための強化学習アプローチを提案します。また、完全に拡散ベースのアーキテクチャを採用した非自己回帰(NAR)型のSeed-TTSモデルであるSeed-TTS_DiTを紹介します。従来のNARベースのTTSシステムとは異なり、Seed-TTS_DiTは事前に推定された音素の持続時間に依存せず、エンドツーエンド処理による音声生成を行います。このバリアントが言語モデルベースのバリアントと同等の性能を達成し、音声編集においてその有効性を示すことを実証します。デモ音声はhttps://bytedancespeech.github.io/seedtts_tech_reportでご確認いただけます。
大規模言語モデル(LLM)における不確実性の定量化について探求し、クエリに対する応答の不確実性が大きい場合を特定することを目指します。本論文では、認識論的不確実性(エピステミック不確実性)と偶然的不確実性(アレトーリック不確実性)の両方を同時に考慮します。前者は、真実(事実や言語に関する知識など)の欠如に起因し、後者は還元不可能なランダム性(複数の可能な回答など)に起因します。特に、認識論的不確実性のみが大きい場合を確実に検出する情報理論的指標を導出します。この場合、モデルの出力は信頼性が低いと判断されます。この条件は、前の応答に基づいた特別な反復的プロンプティングによって得られたモデルの出力のみに基づいて計算可能です。例えば、この定量化により、単一回答および複数回答の両方において、幻覚(認識論的不確実性が高い場合)を検出することができます。これは、多くの標準的な不確実性定量化戦略(例えば、応答の対数尤度を閾値処理する方法)とは対照的であり、複数回答の場合の幻覚を検出できないという問題を解決します。一連の実験を通じて、本手法の優位性を実証します。さらに、LLMが特定の出力に割り当てる確率が反復的プロンプティングによってどのように増幅されるかについても明らかにし、これは独立した興味深い知見となる可能性があります。
オンラインおよびオフラインのRLHF(人間の選好に基づく強化学習)手法、例えばPPOやDPOは、AIを人間の選好に合わせることに極めて成功してきました。しかし、これらの既存手法は根本的な問題を抱えています。それは、最適解がタスクに強く依存する(すなわち、分布外(OOD)タスクに対して頑健ではない)という点です。本論文では、この課題に対処するため、Self-Improving Robust Preference Optimization(SRPO)を提案します。SRPOは、タスクの変化に対して完全に頑健な、実用的かつ数学的に原理に基づいたオフラインRLHFフレームワークです。SRPOの鍵となるアイデアは、人間の選好からの学習問題を自己改善プロセスとして定式化することです。これは、自己改善ポリシーと生成ポリシーを敵対的に最適化するmin-max目的関数として数学的に表現できます。この最適化問題の解は学習タスクに依存しないため、タスクの変化に対して頑健です。さらに、この目的関数は非敵対的なオフライン損失の形で再表現でき、報酬モデルやオンライン推論を必要とせずに、標準的な教師あり最適化手法を用いて大規模に最適化できます。SRPOの有効性は、AIのWin-Rate(WR)を人間のGOLD補完と比較することで示しています。特に、OODデータセットであるXSUMで評価した場合、SRPOは5回の自己修正後に、有名なDPOを15%の明確な差で上回り、90%のWRを達成しました。
テキストからビデオ生成は、時空間モデリングの複雑さとビデオ-テキストデータセットの限界により、テキストから画像合成に比べて品質と多様性の面で遅れを取ってきました。本論文では、I4VGenというトレーニング不要でプラグアンドプレイ可能なビデオ拡散推論フレームワークを提案します。これは、堅牢な画像技術を活用することでテキストからビデオ生成を強化します。具体的には、テキストから画像を経てビデオへという流れに従い、I4VGenはテキストからビデオ生成を2つの段階に分解します:アンカー画像合成とアンカー画像誘導型ビデオ合成です。これに対応して、視覚的にリアルで意味的に忠実なアンカー画像を実現するために、よく設計された生成-選択パイプラインが採用され、画像を動的なビデオにアニメーション化するために革新的なノイズ不変ビデオスコア蒸留サンプリングが組み込まれ、その後ビデオ再生成プロセスによってビデオが洗練されます。この推論戦略は、非ゼロ終端信号対雑音比という普遍的な問題を効果的に緩和します。広範な評価により、I4VGenがより高い視覚的リアリズムとテキスト的忠実性を持つビデオを生成するだけでなく、既存の画像からビデオへの拡散モデルにシームレスに統合され、全体的なビデオ品質を向上させることが示されています。
画像生成拡散モデルにおける主要な関心軸は、画像品質、生成結果の多様性、そして与えられた条件(例えばクラスラベルやテキストプロンプト)との整合性です。広く使われているclassifier-free guidanceアプローチでは、無条件モデルを用いて条件付きモデルをガイドすることで、プロンプトとの整合性と画像品質の同時向上を実現しますが、その代償として多様性が減少します。これらの効果は本質的に絡み合っており、制御が難しいように見えます。私たちは驚くべき観察を行いました。無条件モデルではなく、より小さく訓練の浅いモデル自体を用いて生成をガイドすることで、多様性を損なうことなく画像品質を分離して制御できることがわかったのです。この手法により、ImageNet生成において大幅な改善が見られ、公開されているネットワークを用いて64x64でFID 1.01、512x512でFID 1.25という記録的な数値を達成しました。さらに、この方法は無条件拡散モデルにも適用可能で、その品質を劇的に向上させることができます。
人工知能(AI)の最近の進歩は、主にスケーリングによって推進されてきました。ロボティクスにおいては、大規模なロボットデータセットへのアクセスが不足しているため、スケーリングが妨げられています。私たちは、ロボット学習手法のための環境、タスク、データセットをスケールアップする手段として、現実的な物理シミュレーションの利用を提唱します。本論文では、日常環境における汎用ロボットのトレーニングのための大規模シミュレーションフレームワーク「RoboCasa」を紹介します。RoboCasaは、キッチン環境に焦点を当てた現実的で多様なシーンを特徴としています。150以上のオブジェクトカテゴリーと数十の操作可能な家具や家電にわたる数千の3Dアセットを提供します。テキストから3Dモデルを生成する技術やテキストから画像を生成するモデルなどの生成AIツールを活用し、シミュレーションの現実感と多様性を高めています。大規模言語モデルのガイダンスによって生成された複合タスクを含む、100のタスクを体系的に評価するためのセットを設計しました。学習を促進するために、高品質な人間のデモンストレーションを提供し、自動軌道生成手法を統合することで、人間の負担を最小限に抑えつつデータセットを大幅に拡張します。私たちの実験は、合成生成されたロボットデータを大規模な模倣学習に使用する際の明確なスケーリングの傾向を示し、シミュレーションデータを現実世界のタスクに活用する大きな可能性を示しています。動画とオープンソースコードはhttps://robocasa.ai/で公開されています。
ポートレート動画生成の分野において、単一画像を用いたポートレート動画生成がますます普及しています。一般的なアプローチとして、生成モデルを活用して制御生成のためのアダプターを強化する方法が挙げられます。しかし、制御信号(例:テキスト、音声、参照画像、ポーズ、深度マップなど)の強度は様々です。これらのうち、弱い条件は強い条件からの干渉により効果を発揮しにくく、これらの条件のバランスを取ることが課題となっています。私たちのポートレート動画生成に関する研究では、音声信号が特に弱く、顔のポーズや参照画像などの強い信号に埋もれがちであることを明らかにしました。しかし、弱い信号を用いた直接的なトレーニングは、収束が困難になることが多いです。この問題を解決するために、私たちはV-Expressを提案します。これは、段階的なトレーニングと条件付きドロップアウト操作を通じて異なる制御信号のバランスを取るシンプルな方法です。私たちの方法は、弱い条件による効果的な制御を徐々に可能にし、顔のポーズ、参照画像、音声を同時に考慮した生成能力を実現します。実験結果は、私たちの方法が音声によって制御されたポートレート動画を効果的に生成できることを示しています。さらに、強度の異なる条件を同時かつ効果的に使用するための潜在的な解決策を提供します。
最近、ビデオ拡散モデルが高品質なビデオコンテンツ作成のための表現力豊かな生成ツールとして登場し、一般ユーザーにも容易に利用可能となっています。しかし、これらのモデルはビデオ生成におけるカメラポーズの精密な制御を提供しないことが多く、映画的な表現やユーザーコントロールが制限されています。この問題を解決するため、我々はCamCoを導入し、画像からビデオ生成における細かいカメラポーズ制御を可能にします。事前学習済みの画像からビデオ生成モデルに、Pl\"ucker座標を用いて正確にパラメータ化されたカメラポーズ入力を装備します。生成されるビデオの3D一貫性を向上させるため、各アテンションブロックにエピポーラ制約を特徴マップに適用するエピポーラアテンションモジュールを統合します。さらに、CamCoを構造から運動を推定するアルゴリズムを用いてカメラポーズを推定した実世界のビデオでファインチューニングし、物体の動きをより良く合成します。実験結果から、CamCoは従来のモデルと比較して3D一貫性とカメラ制御能力を大幅に向上させ、説得力のある物体の動きを効果的に生成することが示されています。プロジェクトページ: https://ir1d.github.io/CamCo/