翻訳付きの日次キュレーションされたAI研究論文
Amphionは、オーディオ、音楽、音声生成のためのツールキットです。その目的は、再現可能な研究を支援し、若手研究者やエンジニアがオーディオ、音楽、音声生成の研究開発分野に参入する手助けをすることです。Amphionは、古典的なモデルやアーキテクチャの可視化というユニークな機能を提供しています。これらの可視化は、モデルをより深く理解したい若手研究者やエンジニアにとって有益であると私たちは考えています。Amphionの北極星となる目標は、あらゆる入力を一般的なオーディオに変換する研究のためのプラットフォームを提供することです。Amphionは、個々の生成タスクをサポートするように設計されています。特定の生成タスクに加えて、Amphionにはいくつかのボコーダーと評価指標も含まれています。ボコーダーは高品質なオーディオ信号を生成するための重要なモジュールであり、評価指標は生成タスクにおける一貫したメトリクスを確保するために不可欠です。本論文では、Amphionの概要を高レベルで説明します。
複雑な自然言語質問に答えるためには、多段階の推論と外部情報の統合がしばしば必要となります。これまで、いくつかのシステムが知識検索と大規模言語モデル(LLM)を組み合わせて、そのような質問に答える試みを行ってきました。しかし、これらのシステムにはさまざまな失敗ケースが存在し、外部知識との相互作用が非微分可能であるため、そのような失敗を直接エンドツーエンドで修正するための訓練を行うことができません。これらの欠点を解決するため、我々は外部知識に対して推論し行動する能力を持つReActスタイルのLLMエージェントを定義しました。さらに、ReSTのような手法を用いて、過去の軌跡に基づいて反復的に訓練を行い、AIフィードバックを用いた成長バッチ強化学習を通じて、継続的な自己改善と自己蒸留を実現しました。プロンプトされた大規模モデルから始め、わずか2回のアルゴリズム反復で、パラメータ数を2桁少なくした微調整済みの小型モデルを作成し、困難な構成型質問応答ベンチマークで同等の性能を達成することができました。
拡散モデルは、様々な下流生成タスクで顕著な成功を収めているものの、重要な課題である表現豊かな話し頭生成においては未だ十分に探求されていません。本研究では、このギャップを埋めるためにDreamTalkフレームワークを提案し、拡散モデルの潜在能力を引き出して表現豊かな話し頭を生成するための緻密な設計を行っています。具体的には、DreamTalkは3つの重要なコンポーネントで構成されています:ノイズ除去ネットワーク、スタイルを意識したリップエキスパート、およびスタイル予測器です。拡散ベースのノイズ除去ネットワークは、多様な表情にわたって高品質な音声駆動の顔の動きを一貫して合成することができます。リップモーションの表現力と正確性を向上させるために、話し方のスタイルを意識しながらリップシンクをガイドするスタイルを意識したリップエキスパートを導入しました。表情の参照動画やテキストを不要にするために、追加の拡散ベースのスタイル予測器を使用して、音声から直接ターゲットの表情を予測します。これにより、DreamTalkは強力な拡散モデルを活用して効果的に表現豊かな顔を生成し、高価なスタイル参照への依存を軽減することができます。実験結果は、DreamTalkが多様な話し方のスタイルを持つフォトリアルな話し顔を生成し、正確なリップモーションを実現し、既存の最先端の手法を凌駕することを示しています。
Segment Anything Model(SAM)は、2つの実用的でありながら困難なセグメンテーションタスクに対応しています。1つは、特定のポイントを利用して単一の対象物のマスクを予測する「Segment Anything(SegAny)」、もう1つは、画像内のすべての対象物のマスクを予測する「Segment Everything(SegEvery)」です。SegAnyがSAMにおいて遅い原因は、その重い画像エンコーダにあり、これはMobileSAMによって分離型知識蒸留を用いて解決されました。しかし、SegEveryの効率のボトルネックは、そのマスクデコーダにあります。なぜなら、まず冗長なグリッドサーチプロンプトを用いて多数のマスクを生成し、その後フィルタリングを行って最終的な有効なマスクを取得する必要があるためです。我々は、オブジェクトディスカバリーを通じて得られる有効なプロンプトのみを用いて直接最終的なマスクを生成することで、その効率を改善することを提案します。提案されたアプローチは、マスクデコーダの総時間を少なくとも16倍削減するだけでなく、優れた性能を達成します。具体的には、LVISデータセットにおけるゼロショットオブジェクト提案において、マスクAR@Kメトリックで平均3.6%(42.5%対38.9%)の性能向上をもたらします。定性的な結果は、我々のアプローチが細かいマスクを生成しつつ、過剰なセグメンテーションを回避することを示しています。このプロジェクトは、元のSAMよりも高速なSegEveryを目指しており、MobileSAMv2と名付けられ、より高速なSegAnyを目指すMobileSAMと区別されます。さらに、我々の新しいプロンプトサンプリングが、MobileSAMの蒸留された画像エンコーダとも互換性があることを示し、効率的なSegAnyとSegEveryのための統一されたフレームワークに貢献します。コードはMobileSAMプロジェクトと同じリンクで利用可能です。 https://github.com/ChaoningZhang/MobileSAM{red{https://github.com/ChaoningZhang/MobileSAM}}。
本論文は、アテンションメカニズム内での革新を追求することを主目的としているわけではありません。その代わりに、点群処理の文脈において、スケールの力を活用することで、精度と効率性の間の既存のトレードオフを克服することに焦点を当てています。3D大規模表現学習における最近の進展からインスピレーションを得て、モデルの性能は複雑な設計よりもスケールによってより大きく影響を受けることを認識しました。そこで、スケーリング後の全体性能に対して些末な特定のメカニズムの精度よりも、シンプルさと効率性を優先したPoint Transformer V3(PTv3)を提案します。例えば、KNNによる精密な近傍探索を、特定のパターンで組織化された点群の効率的なシリアライズド近傍マッピングに置き換えるなどです。この原則により、受容野を16点から1024点に大幅に拡大しながらも効率的な処理を実現し(前身であるPTv2と比較して処理速度が3倍、メモリ効率が10倍向上)、20以上の下流タスクにおいて室内外のシナリオをカバーする最先端の結果を達成しました。さらに、複数データセットの共同学習により強化されたPTv3は、これらの結果をより高いレベルに押し上げています。
拡散モデルにおける重要なコンポーネントの一つは、ノイズ予測のためのUNetです。これまでにいくつかの研究がUNetデコーダの基本的な特性を探求してきましたが、そのエンコーダについてはほとんど研究されていません。本研究では、UNetエンコーダの初めての包括的な研究を行います。我々はエンコーダの特徴を実証的に分析し、推論プロセスにおけるそれらの変化に関する重要な疑問に対する洞察を提供します。特に、エンコーダの特徴は穏やかに変化するのに対し、デコーダの特徴は異なるタイムステップ間で大幅な変動を示すことを発見しました。この発見に基づき、特定の隣接するタイムステップでエンコーダを省略し、前のタイムステップのエンコーダ特徴をデコーダで循環的に再利用することを提案します。さらに、この観察に基づいて、多様なタスクにおける拡散サンプリングを加速するためのシンプルで効果的なエンコーダ伝播スキームを導入します。我々の伝播スキームを活用することで、特定の隣接するタイムステップでデコーダを並列実行することが可能になります。加えて、生成画像のテクスチャ詳細を改善するための事前ノイズ注入法を導入します。標準的なテキストから画像へのタスクに加えて、テキストからビデオ、パーソナライズド生成、および参照ガイド生成といった他のタスクでも我々のアプローチを検証します。知識蒸留技術を一切使用せずに、我々のアプローチはStable Diffusion(SD)とDeepFloyd-IFモデルのサンプリングをそれぞれ41%と24%加速し、高品質な生成性能を維持します。我々のコードはhttps://github.com/hutaiHang/Faster-Diffusion{FasterDiffusion}で公開されています。
Transformerベースの大規模言語モデル(LLMs)は、流暢で関連性の高い応答を生成するために、テキスト入力の長さに制限を設けることが多い。この制約は、長文を扱うシナリオにおける適用性を制限している。本研究では、大幅な計算コストをかけず、ファインチューニングを必要とせずに、6~8倍の長さのテキストに一般化可能な新しい意味的圧縮手法を提案する。提案するフレームワークは、情報理論におけるソース符号化に着想を得て、事前学習済みモデルを活用して長い入力の意味的冗長性を削減し、それをLLMsに渡して下流タスクを実行する。実験結果は、質問応答、要約、少数ショット学習、情報検索などのタスクにおいて、提案手法がLLMsのコンテキストウィンドウを効果的に拡張することを示している。さらに、提案する意味的圧縮手法は、テキスト生成の流暢さを維持しつつ、関連する計算オーバーヘッドを削減することを実証している。
我々は、大規模言語モデル(LLM)の活性化に関する既存の教師なし手法が知識を発見しないことを示す。むしろ、それらの手法は活性化の最も顕著な特徴を発見しているように見える。教師なし知識抽出の背後にある考え方は、知識が一貫性構造を満たすため、その構造を利用して知識を発見できるというものである。我々はまず理論的に、任意の特徴(知識だけでなく)が特定の主要な教師なし知識抽出手法であるコントラスト一貫性探索(Burns et al. - arXiv:2212.03827)の一貫性構造を満たすことを証明する。次に、教師なし手法が知識を予測するのではなく、別の顕著な特徴を予測する分類器を生成する設定を示す一連の実験を提示する。我々は、潜在的な知識を発見するための既存の教師なし手法が不十分であると結論付け、将来の知識抽出手法を評価する際に適用すべき健全性チェックを提案する。概念的には、ここで探求した識別問題(例えば、モデルの知識とシミュレートされたキャラクターの知識を区別する問題)が、将来の教師なし手法においても持続すると仮説を立てる。
スコア蒸留サンプリング(SDS)は、条件付き3Dコンテンツ生成において顕著な性能を発揮しています。しかし、SDSの定式化に対する包括的な理解はまだ不十分であり、3D生成の進展を妨げています。本研究では、SDSをモード分離、モード探索、および分散低減の3つの機能的なコンポーネントの組み合わせとして解釈し、それぞれの特性を分析します。過剰な平滑化や色飽和といった問題は、監督項の本質的な欠陥に起因することを示し、SDSによって導入された分散低減項が最適ではないことを明らかにします。さらに、3D生成における大規模なClassifier-Free Guidance(CFG)スケールの採用についても考察します。この分析に基づき、各項を戦略的に調整して高品質な3D生成を実現する、シンプルでありながら効果的なアプローチであるStable Score Distillation(SSD)を提案します。広範な実験により、我々のアプローチの有効性が検証され、最も挑戦的なNeRF表現においても低CFG条件下で、過剰な平滑化や過飽和といった問題に陥ることなく、高忠実度の3Dコンテンツを生成できることが実証されています。
Neural Radiance Field (NeRF) とその派生モデルは、最近、新規視点合成や3Dシーン再構成において成功を収めている手法として注目を集めています。しかし、現在のほとんどのNeRFモデルは、大規模なモデルサイズを使用して高い精度を達成するか、あるいは精度を犠牲にしてメモリ効率を高めるかのいずれかです。これにより、単一のモデルの適用範囲が制限されます。なぜなら、高精度モデルは低メモリデバイスに適合しない可能性があり、メモリ効率の高いモデルは高品質の要件を満たさない可能性があるからです。この問題に対処するため、本論文ではSlimmeRFを提案します。SlimmeRFは、スリミングを通じてモデルサイズと精度の間の即時のテスト時トレードオフを可能にし、異なる計算予算を持つシナリオに同時に適したモデルを実現します。これを実現するために、新たに提案されたTensorial Rank Incrementation (TRaIn) というアルゴリズムを使用し、トレーニング中にモデルのテンソル表現のランクを徐々に増加させます。また、我々のモデルは、スパースビューシナリオにおいてより効果的なトレードオフを可能にし、時にはスリミング後にさらに高い精度を達成することも観察しました。これは、フローティングアーティファクトなどの誤った情報が、より高いランクに対応するコンポーネントに保存される傾向があるためであると考えられます。実装はhttps://github.com/Shiran-Yuan/SlimmeRFで公開されています。
高品質な対話データセットは、ユーザーとコミュニケーションを取るAIモデルの開発に不可欠です。チャットボットとユーザー間の深い相互作用を促進する方法の一つとして、ユーザーの性格、動機、行動に関する洞察を提供する「ペルソナ」が挙げられます。多様で包括的なペルソナベースのデータセットで自然言語処理(NLP)モデルを訓練することで、ユーザーとの深い結びつきを創出し、エンゲージメントを維持する対話モデルを実現できます。本論文では、大規模言語モデル(LLM)の力を活用して、シードデータセットから大規模で高品質な対話データセットを作成します。初期データセットを拡張し、その対話の品質を向上させるためのGenerator-Criticアーキテクチャフレームワークを提案します。Generatorは、対話を出力するようにプロンプトされたLLMです。Criticは、生成された対話の品質を管理する専門家LLMの混合物で構成されます。これらの専門家が最良の生成対話を選択し、それを用いてGeneratorを改善します。Persona-Chatをシードとした20,000の対話からなるSynthetic-Persona-Chatを公開します。Synthetic-Persona-Chatと生成フレームワークの品質を多角的に評価するため、広範な実験を行い、チューリングテストにおけるSynthetic-Persona-ChatのPersona-Chatに対する敗北率が、3回の反復で17.2%から8.8%に減少することを確認しました。
本シリーズの目的は、機械学習分野における意見や課題を、現状のまま、また時間の経過とともに変化する姿を記録することです。AIシンギュラリティによるペーパークリップ狂乱の終末まで、定期的にこの調査を実施し、最新のトピックに関する質問リストを更新し、各号ごとに新たなコミュニティメンバーにインタビューを行う予定です。今号では、解釈可能なAIに関する人々の意見、現代の自然言語処理におけるベンチマークの価値、深層学習の理解に向けた進捗状況、そして学術界の未来について探りました。