翻訳付きの日次キュレーションされたAI研究論文
GPT-4oのようなモデルは、大規模言語モデル(LLMs)とのリアルタイムインタラクションを音声を通じて可能にし、従来のテキストベースのインタラクションと比較してユーザーエクスペリエンスを大幅に向上させます。しかし、オープンソースのLLMsを基にした音声インタラクションモデルの構築方法にはまだ十分な探索がされていません。この課題に対処するために、低遅延かつ高品質な音声インタラクションをLLMsと行うために設計された革新的なモデルアーキテクチャ、LLaMA-Omniを提案します。LLaMA-Omniは、事前学習された音声エンコーダ、音声アダプタ、LLM、およびストリーミング音声デコーダを統合しています。音声転写の必要性を排除し、音声指示から直接テキストと音声応答を極めて低い遅延で生成することができます。私たちは、最新のLlama-3.1-8B-Instructモデルに基づいてモデルを構築しています。音声インタラクションシナリオにモデルを整合させるために、InstructS2S-200Kというデータセットを構築しました。このデータセットには、20万の音声指示とそれに対応する音声応答が含まれています。実験結果によると、従来の音声言語モデルと比較して、LLaMA-Omniはコンテンツとスタイルの両方でより良い応答を提供し、応答遅延は226msまで低下しています。さらに、LLaMA-Omniのトレーニングにはたった4つのGPUで3日未満しかかからず、将来の効率的な音声言語モデルの開発の道を切り開いています。
Retrieval-Augmented Generation(RAG)は、最近一般的なパラダイムとして浮上し、大規模言語モデル(LLM)をプライベートかつ最新の知識ベースと共に使用することを指します。本研究では、RAGシステムによって生成された根拠付き回答を評価する際にLLMを判定者として使用する際の課題に取り組みます。判定モデルのキャリブレーションおよび識別能力を評価するために、7つの生成器の故障モードを特定し、144の単体テストからなるメタ評価ベンチマークであるGroUSE(Grounded QA Unitary Scoring of Evaluators)を導入します。このベンチマークにより、既存の自動RAG評価フレームワークがしばしば重要な故障モードを見落としていることが明らかになります。これは、GPT-4を判定者として使用している場合でも同様です。 現在の自動RAG評価フレームワークの設計を改善するために、新しいパイプラインを提案し、クローズドモデルがGroUSEでうまく機能する一方で、最先端のオープンソース判定者が提案された基準に一般化しないことを発見しました。これは、GPT-4の判断と強い相関関係があるにもかかわらずです。我々の調査結果は、GPT-4との相関が判定モデルの実用的なパフォーマンスの不完全な代理指標であり、正確な故障モードの検出のために単体テストでの評価を補完すべきであることを示唆しています。 さらに、Llama-3をGPT-4の推論トレースでファインチューニングすることで、その評価能力が大幅に向上し、GPT-4の評価との相関性、およびリファレンス状況でのキャリブレーションの両方が改善されることを示します。
アフォーダンスは、物体に内在する潜在的な相互作用を示します。アフォーダンスの認識は、知能エージェントが新しい環境で効率的に移動し、相互作用することを可能にすることがあります。弱教師付きアフォーダンスグラウンディングは、高コストなピクセルレベルの注釈を必要とせず、エキソセントリック画像を用いてアフォーダンスの概念をエージェントに教えるものです。最近の弱教師付きアフォーダンスグラウンディングの進展には、有望な結果が得られましたが、エキソセントリック画像とエゴセントリック画像のペアデータセットが必要であるという課題や、単一の物体に対する多様なアフォーダンスのグラウンディングの複雑さなどの課題が残っています。これらに対処するために、私たちはINTeraction Relationship-aware weakly supervised Affordance grounding(INTRA)を提案します。INTRAは、従来の手法とは異なり、この問題を表現学習として再構築し、エキソセントリック画像のみを用いたコントラスト学習によって相互作用のユニークな特徴を特定することで、ペアデータセットの必要性を排除します。さらに、ビジョン言語モデルの埋め込みを活用し、テキストに柔軟に適応したアフォーダンスグラウンディングを行うために、テキスト条件付きのアフォーダンスマップ生成を設計し、コントラスト学習のための相互作用関係を反映させ、テキストの同義語拡張によって堅牢性を向上させます。私たちの手法は、AGD20K、IIT-AFF、CAD、UMDなどの多様なデータセットで従来の手法を上回りました。さらに、実験結果は、私たちの手法が合成画像/イラストに対する顕著なドメインスケーラビリティを持ち、新しい相互作用や物体に対するアフォーダンスグラウンディングを行う能力を示しています。
音楽は人間の文化の重要な要素であり、人間の知性と創造性を具珽し、その中で歌は重要な部分を構成しています。過去の研究では、歌声、ボーカル作曲、楽器編成など、歌の生成のさまざまな側面が探求されてきましたが、歌詞が与えられた状態でボーカルと伴奏を持つ歌を生成することは、現実世界での音楽生成モデルの応用を妨げる重要な課題です。この観点から、私たちはこの課題に取り組むために設計された歌生成システムであるSongCreatorを提案します。このモデルには、2つの革新的な設計が特徴として組み込まれています。ボーカルと伴奏の情報を捉えるための入念に設計されたデュアルシーケンス言語モデル(DSLM)と、DSLM用の追加の注意マスク戦略が含まれており、これによりモデルは歌を理解し、生成し、編集することが可能となり、さまざまな歌に関連する生成タスクに適しています。包括的な実験により、SongCreatorの効果が実証され、8つのタスクすべてで最先端または競争力のあるパフォーマンスを達成しています。特に、歌詞から歌曲へ、歌詞からボーカルへの点で、過去の研究を大きく上回っています。さらに、異なるプロンプトを使用して生成された歌でボーカルと伴奏の音響条件を独立に制御することができ、その潜在的な適用可能性を示しています。サンプルはhttps://songcreator.github.io/ で入手可能です。
フリーは映画製作で一般的に使用される用語であり、無音の映画やビデオに日常的な効果音を追加して聴覚体験を向上させることを指します。ビデオからオーディオ(V2A)は、自動フリーの特定タイプとして、オーディオとビジュアルの同期に関連する固有の課題を提起します。これらの課題には、入力ビデオと生成されたオーディオのコンテンツの一貫性を維持すること、およびビデオ内の時間的および音量の特性の整合性が含まれます。これらの問題に対処するために、Draw an Audioと呼ばれる制御可能なビデオからオーディオ合成モデルを構築します。このモデルは、描かれたマスクと音量信号を介して複数の入力指示をサポートします。合成されたオーディオとターゲットビデオのコンテンツの一貫性を確保するために、マスク・アテンション・モジュール(MAM)を導入します。このモジュールは、マスクされたビデオ指示を使用して、モデルが興味のある領域に焦点を当てるようにします。さらに、時間・音量モジュール(TLM)を実装し、ビデオの音量と時間の両面でビデオに合わせた音の合成を確実にします。さらに、VGGSound-Captionという大規模なV2Aデータセットを拡張し、キャプションプロンプトを注釈付けしました。2つの大規模なV2Aデータセット全体での厳しいベンチマーク実験により、Draw an Audioが最先端の性能を達成することが確認されました。プロジェクトページ:https://yannqi.github.io/Draw-an-Audio/。
近年、拡散モデルの開発により、画像およびビデオ生成タスクにおいて著しい進歩が見られ、Stable Diffusionシリーズなどの事前学習済みモデルが重要な役割を果たしています。大規模な事前学習済みモデルから重要でないパラメータを削除するモデル剪定に着想を得て、我々は新しいモデル微調整手法を提案し、これらの無効なパラメータを十分に活用し、事前学習済みモデルに新たなタスク固有の機能を付加します。本研究では、事前学習済み拡散モデルのパラメータの重要性を調査し、絶対値による最小の10%から20%のパラメータが生成プロセスに寄与していないことを発見しました。この観察に基づき、一時的に無効なこれらのパラメータを再利用するSaRAと呼ばれる手法を提案し、スパースな重み行列を最適化してタスク固有の知識を習得します。過学習を緩和するために、効率的な微調整のための核ノルムベースの低ランクスパーストレーニングスキームを提案します。さらに、再トレーニング/微調整されたパラメータを十分に活用するための新しい進行的パラメータ調整戦略を設計します。最後に、大幅にメモリコストを削減する新しい非構造化バックプロパゲーション戦略を提案します。我々の手法は、下流のアプリケーションにおいて事前学習済みモデルの生成能力を向上させ、LoRAなどの従来の微調整手法を上回る一般化能力を維持します。SDモデルでの微調整実験を通じて、我々のアプローチの有効性を検証し、大幅な改善を実証します。SaRAは、効率的な実装のために1行のコード修正のみを必要とする実用的な利点を提供し、既存の手法とシームレスに互換性があります。
ニューラル・ラディアンス・フィールド(NeRFs)は、3Dにおける静的なシーンやオブジェクトの再構築を革新し、前例のない品質を提供しています。ただし、NeRFsを動的オブジェクトやオブジェクトの関節をモデル化するには依然として課題が残ります。過去の研究では、オブジェクトの部分レベルの再構築や動きの推定に焦点を当てることで、この問題に取り組んできましたが、移動する部位やオブジェクトのカテゴリに関するヒューリスティックに依存することが多く、それが実用上の制約となることがあります。本研究では、動的3Dオブジェクトを表現するための新しい手法であるLEIAを紹介します。当該手法は、オブジェクトを異なる時間ステップまたは「状態」で観察し、ハイパーネットワークを現在の状態に依存させ、これを用いてNeRFをパラメータ化します。この手法により、各状態に対してビューに依存しない潜在表現を学習することが可能となります。さらに、これらの状態間を補間することで、以前に見られなかった3D空間における新しい関節構成を生成することができることを示します。実験結果は、視点角や関節構成に独立した方法でオブジェクトの関節を表現するための当該手法の効果を示しています。特筆すべきは、当該手法が関節登録に動き情報を必要とする従来の手法を凌駕していることです。