翻訳付きの日次キュレーションされたAI研究論文
テキスト記述からの高精細な動画生成に対する需要の高まりが、この分野における重要な研究を促進しています。本研究では、テキストから画像を生成するモデル、動画モーション生成器、参照画像埋め込みモジュール、およびフレーム補間モジュールを統合したエンドツーエンドの動画生成パイプラインであるMagicVideo-V2を紹介します。これらのアーキテクチャ設計により、MagicVideo-V2は美しく、高解像度で、驚くべき忠実度と滑らかさを備えた動画を生成することができます。大規模なユーザー評価を通じて、Runway、Pika 1.0、Morph、Moon Valley、Stable Video Diffusionモデルなどの主要なテキストから動画を生成するシステムを凌駕する優れた性能を示しています。
MAGNeTを紹介します。これは、複数のオーディオトークンのストリームを直接操作するマスク生成型シーケンスモデリング手法です。従来の研究とは異なり、MAGNeTは単一ステージの非自己回帰型トランスフォーマーで構成されています。訓練時には、マスキングスケジューラから得られたマスクされたトークンの範囲を予測し、推論時には複数のデコードステップを使用して出力シーケンスを徐々に構築します。生成されたオーディオの品質をさらに向上させるために、外部の事前学習済みモデルを活用してMAGNeTの予測を再スコアリングし、ランク付けする新しい再スコアリング手法を導入します。これにより、後のデコードステップで使用される予測が決定されます。最後に、MAGNeTのハイブリッドバージョンを探求します。このバージョンでは、最初の数秒を自己回帰的に生成し、残りのシーケンスを並列にデコードするために、自己回帰モデルと非自己回帰モデルを融合させます。MAGNeTの効率性をテキストから音楽およびテキストからオーディオ生成のタスクで実証し、客観的指標と人間による評価の両方を考慮した広範な実証的評価を行います。提案手法は評価されたベースラインと同等でありながら、大幅に高速です(自己回帰ベースラインの7倍の速度)。アブレーション研究と分析を通じて、MAGNeTを構成する各コンポーネントの重要性を明らかにし、レイテンシ、スループット、生成品質を考慮した自己回帰モデリングと非自己回帰モデリングのトレードオフを指摘します。サンプルはデモページhttps://pages.cs.huji.ac.il/adiyoss-lab/MAGNeTでご覧いただけます。
線形アテンションは、従来のソフトマックスアテンションに代わる有望な手法として最近登場した効率的なアテンションメカニズムです。線形計算量でトークンを処理する能力により、理論的には、速度を犠牲にすることなく無限の長さのシーケンスを扱うことが可能です。つまり、固定のメモリ消費量で様々なシーケンス長に対して一定のトレーニング速度を維持できます。しかし、累積和(cumsum)の問題により、現在の線形アテンションアルゴリズムは因果的設定においてその理論的優位性を実証できません。本論文では、線形アテンションがその理論的計算上の利点を実現するための最初の実装であるLightning Attention-2を紹介します。これを達成するために、タイル化の考え方を活用し、線形アテンション計算におけるブロック内成分とブロック間成分を別々に処理します。具体的には、ブロック内成分には従来のアテンション計算メカニズムを利用し、ブロック間成分には線形アテンションのカーネルトリックを適用します。GPUハードウェアの利点を最大限に活用するために、フォワードおよびバックワードの両手順でタイル化技術を採用します。私たちは、IOを意識し、ハードウェアに優しい形でアルゴリズムをTritonで実装しました。様々なモデルサイズとシーケンス長で実験を行い、Lightning Attention-2は入力シーケンス長に関係なく一貫したトレーニングおよび推論速度を維持し、他のアテンションメカニズムよりも大幅に高速であることを確認しました。ソースコードはhttps://github.com/OpenNLPLab/lightning-attentionで公開されています。
大規模言語モデル(LLM)を用いた表形式推論は、表形式質問応答や事実検証など、多くの表理解タスクに取り組むための有望な方向性です。一般的な推論と比較して、表形式推論では、自由形式の質問と半構造化された表形式データの両方から潜在的な意味を抽出する必要があります。Chain-of-Thoughtやその類似アプローチでは、推論チェーンをテキストコンテキストの形で組み込みますが、推論チェーンにおいて表形式データを効果的に活用する方法は未解決の問題です。本論文では、Chain-of-Tableフレームワークを提案します。このフレームワークでは、表形式データが推論チェーンにおいて中間思考のプロキシとして明示的に使用されます。具体的には、インコンテキスト学習を用いてLLMをガイドし、操作を反復的に生成し、表を更新することで表形式推論チェーンを表現します。これにより、LLMは前の操作の結果に基づいて次の操作を動的に計画できます。この表の連続的な進化がチェーンを形成し、与えられた表形式問題に対する推論プロセスを示します。このチェーンは中間結果の構造化情報を保持し、より正確で信頼性の高い予測を可能にします。Chain-of-Tableは、複数のLLM選択肢において、WikiTQ、FeTaQA、TabFactベンチマークで新たな最先端の性能を達成しました。
ジャンプカットは、視聴体験において急激で時に望ましくない変化をもたらします。本論文では、トーキングヘッド動画を対象とした、これらのジャンプカットを滑らかにする新しいフレームワークを提案します。私たちは、動画内の他のソースフレームから被写体の外観を活用し、DensePoseキーポイントと顔のランドマークによって駆動される中間表現と融合させます。動きを実現するために、カット周辺の終端フレーム間でキーポイントとランドマークを補間します。その後、キーポイントとソースフレームから画像変換ネットワークを使用してピクセルを合成します。キーポイントには誤差が含まれる可能性があるため、各キーポイントに対して複数の選択肢から最も適切なソースを選択するためのクロスモーダルアテンションスキームを提案します。この中間表現を活用することで、強力な動画補間ベースラインよりも優れた結果を達成できます。私たちは、フィラー言葉やポーズ、さらにはランダムなカットなど、トーキングヘッド動画における様々なジャンプカットに対して本手法を実証します。実験結果から、トーキングヘッドがジャンプカット中に回転したり大きく動いたりするような困難なケースにおいても、シームレスな遷移を実現できることが示されています。
ニューラルネットワークの視覚および視覚-言語アプリケーション、例えば画像分類やキャプション生成は、大規模な注釈付きデータセットに依存しており、その収集プロセスは非自明な作業を必要とします。この時間のかかる取り組みは、大規模データセットの出現を妨げ、研究者や実務者を限られた選択肢に制限しています。そのため、私たちはより効率的な画像収集と注釈付けの方法を模索しています。これまでの取り組みでは、HTMLのaltテキストやソーシャルメディアの投稿からキャプションを収集してきましたが、これらのデータソースはノイズ、スパース性、または主観性に悩まされています。このため、私たちは商業的なショッピングウェブサイトに目を向けました。これらのデータは、清潔さ、情報量、流暢さという3つの基準を満たしています。私たちは、公開されているeコマースウェブサイトから1500万の画像-キャプションペアを収集した大規模な公開データセット「Let's Go Shopping (LGS)」を紹介します。既存の一般ドメインデータセットと比較すると、LGSの画像は前景のオブジェクトに焦点を当てており、背景が複雑ではありません。LGSでの実験では、既存のベンチマークデータセットで訓練された分類器はeコマースデータに容易に一般化しないのに対し、特定の自己教師あり視覚特徴抽出器はより良く一般化できることが示されています。さらに、LGSの高品質なeコマース指向の画像と双峰性は、視覚-言語双峰タスクに有利です。LGSは、画像キャプションモデルがより豊かなキャプションを生成することを可能にし、テキストから画像生成モデルがeコマーススタイルの転送を達成するのに役立ちます。
事実に関する質問は、通常、異なる粒度レベルで正しく答えることが可能です。例えば、「バラク・オバマはいつ生まれたか?」という質問に対して、「1961年8月4日」と「1961年」のどちらも正しい答えとなります。しかし、標準的な質問応答(QA)評価プロトコルでは、これを明示的に考慮せず、単一の粒度レベルの答えと予測された答えを比較します。本研究では、予測された答えを複数の粒度レベルの答えに対して正確性と情報量の観点から評価する新しい評価設定であるGRANOLA QAを提案します。既存のデータセットに複数の粒度レベルの答えを追加するためのシンプルな方法論を提示し、EntityQuestionsデータセットの多粒度バージョンであるGRANOLA-EQを作成します。GRANOLA-EQに対して、新しいアルゴリズムであるDecoding with Response Aggregation(DRAG)を含むさまざまなデコード手法を評価します。DRAGは、応答の粒度をモデルの不確実性に合わせることを目的としています。実験結果から、標準的なデコード手法を用いた大規模言語モデルは、しばしば誤った具体的な答えを生成する傾向があることが示されました。一方、多粒度の答えで評価すると、DRAGは平均で約20ポイントの精度向上をもたらし、特に希少なエンティティに対してはさらに向上します。全体として、標準的な評価およびデコード手法は、言語モデルに内包された知識を大幅に過小評価している可能性があることが明らかになりました。
拡散モデルの音声強調における可能性にもかかわらず、その音響エコーキャンセレーション(AEC)への適用は限定的でした。本論文では、AEC専用の拡散ベースの確率的再生アプローチを初めて提案するDI-AECを紹介します。さらに、エッジデバイスでの利用に適した計算負荷を削減するため、高速スコアベース拡散AECフレームワークであるFADI-AECを提案します。このフレームワークは、フレームごとにスコアモデルを1回実行することで、処理効率の大幅な向上を実現しています。加えて、遠端信号を活用した新しいノイズ生成技術を導入し、遠端信号と近端信号の両方を組み合わせてスコアモデルの精度を向上させます。提案手法をICASSP2023 Microsoft Deep Echo Cancellation Challenge評価データセットで検証した結果、エンドツーエンド手法や他の拡散ベースのエコーキャンセレーション手法を上回る性能を示しました。