翻訳付きの日次キュレーションされたAI研究論文
拡散モデルは、連続値入力を持つ様々な領域で強力な生成パラダイムとして登場し、優れた性能を発揮しています。完全な非自己回帰型テキスト生成の可能性にもかかわらず、自然言語への拡散モデルの適用は、その離散的な性質により依然として困難です。本研究では、Text-to-text Self-conditioned Simplex Diffusion (TESS)を提案します。これは、完全な非自己回帰型のテキスト拡散モデルであり、新たな形式の自己条件付けを採用し、拡散プロセスを従来の学習済み埋め込み空間ではなく、ロジット単体空間に適用します。要約、テキスト簡略化、言い換え生成、質問生成などの自然言語理解および生成タスクにおける広範な実験を通じて、TESSが最先端の非自己回帰モデルを上回り、事前学習された自己回帰型シーケンス・ツー・シーケンスモデルと競合することを実証します。
ユニバーサル音源分離(USS)は、計算論的聴覚シーン分析における基本的な研究課題であり、モノラル録音を個々の音源トラックに分離することを目的としています。音源分離タスクの解決には、3つの潜在的な課題が存在します。第一に、従来の音源分離システムは、主に1つまたは限られた数の特定の音源を分離することに焦点を当てており、単一のモデルで任意の音源を分離できる統一システムの研究が不足しています。第二に、ほとんどの既存システムは分離器を訓練するためにクリーンな音源データを必要としますが、クリーンな音源データは希少です。第三に、階層レベルでアクティブな音響クラスを自動的に検出・分離できるUSSシステムが不足しています。大規模な弱ラベル/非ラベル音声データを音源分離に活用するため、我々は以下の要素を含むユニバーサル音源分離フレームワークを提案します:1)弱ラベルデータで訓練された音声タグ付けモデルをクエリネットとして使用し、2)クエリネットの出力を条件として任意の音源を分離する条件付き音源分離モデルです。我々は様々なクエリネット、音源分離モデル、および訓練戦略を調査し、AudioSetオントロジーから音響クラスを自動的に検出・分離する階層的USS戦略を提案します。弱ラベルのAudioSetのみを活用することで、我々のUSSシステムは、音響イベント分離、音楽音源分離、音声強調を含む多様な音響クラスの分離に成功しています。USSシステムは、AudioSetの527音響クラスにおいて平均5.57 dBの信号対歪率改善(SDRi)を達成し、DCASE 2018 Task 2データセットでは10.57 dB、MUSDB18データセットでは8.12 dB、Slakh2100データセットでは7.28 dBのSDRiを、またvoicebank-demandデータセットでは9.00 dBのSSNRを達成しました。ソースコードはhttps://github.com/bytedance/ussで公開しています。
テキスト駆動型の画像およびビデオ拡散モデルは、現実的で多様なコンテンツの生成において前例のない成功を収めています。最近では、拡散ベースの生成モデルを用いた既存の画像やビデオの編集およびバリエーションが大きな注目を集めています。しかし、これまでの研究はテキストによるコンテンツの編集や単一の視覚的ヒントを用いた粗いパーソナライゼーションに限定されており、細かい制御を必要とする描写不可能なコンテンツには適していませんでした。この点を踏まえ、我々は「Make-A-Protagonist」と呼ばれる汎用的なビデオ編集フレームワークを提案します。このフレームワークは、テキストと視覚的なヒントを活用してビデオを編集し、個人が主人公になることを可能にすることを目的としています。具体的には、複数の専門家を活用してソースビデオ、ターゲットの視覚的およびテキスト的なヒントを解析し、マスク誘導型ノイズ除去サンプリングを用いた視覚-テキストベースのビデオ生成モデルを提案します。広範な結果は、Make-A-Protagonistの多様で卓越した編集能力を実証しています。
要約モデルは、単一の参照文書の尤度を最大化するように訓練される(MLE)ため、品質指標に対して不適切に調整されたテキストを生成することが多い。この問題に対処するため、最近の研究では、モデルが自身のランク付けされた出力にさらされるキャリブレーションステップを追加し、関連性を向上させるか、別の研究ラインでは、忠実性を向上させるためにポジティブセットとネガティブセットを対比させている。これらのアプローチは効果的であるが、その多くはこれらのセットを生成し最適化する方法に焦点を当てている。なぜある設定が他の設定よりも効果的であるかについては、あまり知られていない。本研究では、効果的なセットの根本的な特性を明らかにする。各訓練インスタンスに対して、大規模で多様な候補プールを形成し、キャリブレーションファインチューニングに使用されるサブセットを体系的に変化させる。各選択戦略は、語彙の多様性やポジティブとネガティブの間のギャップの大きさなど、セットの異なる側面を対象とする。生物医学、臨床、化学の分野にまたがる3つの多様な科学分野の長文要約データセットにおいて、忠実性のキャリブレーションは、ネガティブセットが抽出可能で生成されやすい場合に最適であり、関連性のキャリブレーションでは、候補間のメトリックの差を最大化し、モデルとメトリックが定義する候補ランキングの不一致(サプライズ)を最小化するべきであることがわかった。キャリブレーションセットを作成、選択、最適化するコードは、https://github.com/griff4692/calibrating-summaries で公開されている。
ウェブ上の大規模な画像テキストデータを用いた事前学習は、多くの視覚と言語(V&L)タスクにおいて急速な進展を可能にしてきました。しかし、最近の研究では、事前学習済みモデルが「細粒度」の理解、例えば画像内の関係性、動詞、数字を認識する能力を欠いていることが示されています。これにより、コミュニティでは、そのような能力を評価するための新しいベンチマークやモデルの開発に対する関心が高まっています。この方向性における進展をより深く理解し定量化するため、我々は4つの競合するV&Lモデルを4つの細粒度ベンチマークで調査しました。分析を通じて、X-VLM(Zeng et al., 2022)が他のベースラインを一貫して上回り、モデリングの革新がウェブデータのスケーリングよりも性能に大きな影響を与えること、さらにはスケーリングが時として性能を低下させることを明らかにしました。X-VLMの詳細な調査を通じて、新しい損失関数と豊富なデータソースの両方が細粒度スキルの学習において重要であることを強調します。最後に、トレーニングダイナミクスを調査し、一部のタスクでは性能がトレーニングの早い段階でピークに達するか、大幅に変動して収束しないことを発見しました。
人間の顔を忠実に可視化するためには、顔の形状と外観の粗いレベルと細かいレベルの両方の詳細を捉える必要があります。既存の手法は、研究コミュニティに公開されていない膨大なデータコーパスを必要とするデータ駆動型であるか、あるいは粗い顔の形状のみをモデル化するために設計されたメッシュ離散化と線形変形に依存しているため、細かいテクスチャの詳細を捉えることができません。本研究では、従来のコンピュータグラフィックス技術からインスピレーションを得て、このギャップを埋める手法を提案します。未見の表情は、極端なポーズのスパースセットからの外観をブレンドすることでモデル化されます。このブレンディングは、それらの表情における局所的な体積変化を測定し、テスト時に類似した表情が行われた際にその外観を局所的に再現することによって行われます。本手法が未見の表情に一般化し、顔の滑らかな体積変形の上に細かい効果を追加することを示し、さらに顔以外の領域にも一般化する方法を実証します。
大規模言語モデル(LM)が公平で、堅牢かつ有用であることを保証するためには、入力に対する異なる変更がモデルの挙動にどのような影響を与えるかを理解する必要があります。しかし、オープンテキスト生成タスクの文脈では、そのような評価は自明ではありません。例えば、モデルに入力テキストとその「対照的」なバージョンを提示した場合、標準的なデコード戦略では、次のトークン予測における有意な差異が明らかにならないことがあります。この動機に基づき、我々はContrastive Input Decoding(CID)を提案します。これは、2つの入力が与えられた場合に、一方の入力に対しては生成されやすいが、他方の入力に対しては生成されにくいテキストを生成するデコードアルゴリズムです。このようにして、対照的な生成結果は、2つの入力に対するLMの出力の潜在的に微妙な差異を、シンプルで解釈可能な形で浮き彫りにすることができます。我々はCIDを使用して、標準的なデコード戦略では検出が難しい文脈固有のバイアスを強調し、異なる入力摂動の効果を定量化します。
本論文では、エゴセントリックな行動認識における新たな問題を研究し、これを「マルチモーダル汎化」(MMG)と名付けます。MMGは、特定のモダリティのデータが限られているか、完全に欠落している場合に、システムがどのように汎化できるかを研究することを目的としています。我々は、標準的な教師あり行動認識と、より挑戦的な少数ショット設定での新しい行動カテゴリの学習という文脈で、MMGを徹底的に調査します。MMGは、実世界のアプリケーションにおけるセキュリティと効率性の考慮をサポートするために設計された2つの新たなシナリオで構成されます:(1)推論時にトレーニング時に存在していた一部のモダリティが欠落している場合のモダリティ欠落汎化、(2)推論時とトレーニング時に存在するモダリティが互いに排他的である場合のクロスモーダルゼロショット汎化。この調査を可能にするため、我々はビデオ、オーディオ、慣性モーションセンサー(IMU)のモダリティを持つデータポイントを含む新しいデータセットMMG-Ego4Dを構築しました。このデータセットはEgo4Dデータセットから派生していますが、MMG問題の研究を促進するために人間の専門家によって処理され、徹底的に再アノテーションされています。我々はMMG-Ego4D上で多様なモデルを評価し、汎化能力を向上させた新しい手法を提案します。特に、モダリティドロップアウトトレーニング、コントラスティブベースのアライメントトレーニング、そして少数ショット性能を向上させるための新しいクロスモーダルプロトタイプ損失を備えた新しい融合モジュールを導入します。この研究がマルチモーダル汎化問題におけるベンチマークとなり、将来の研究の指針となることを願っています。ベンチマークとコードはhttps://github.com/facebookresearch/MMG_Ego4Dで公開されます。
リソーススケジューリングと割り当ては、輻輳制御からクラウドコンピューティングに至るまで、多くの高影響システムにおける重要な要素です。これらの問題に対してより最適な解を見つけることは、リソースと時間の節約、デバイスの摩耗の低減、さらには二酸化炭素排出量の削減にさえも大きな影響を与える可能性があります。本論文では、特に機械学習プログラムのコンパイル時に発生するメモリマッピング問題、すなわちテンソルを異なるメモリ層にマッピングして実行時間を最適化する問題に焦点を当てます。 我々は、強化学習(Reinforcement Learning, RL)を用いてメモリマッピング問題を解決するアプローチを提案します。RLは、計画可能な逐次意思決定問題や、高次元データ入力を持つ組み合わせ探索空間に適した解決パラダイムです。本問題をシングルプレイヤーゲームとして定式化し、これをmallocGameと呼びます。このゲームにおける高報酬の軌跡は、ターゲットハードウェア上での効率的なメモリマッピングに対応します。また、強化学習エージェントであるmallocMuZeroを導入し、このゲームをプレイすることで、MLアクセラレータ上での実際のMLワークロードにおいて実行時間を短縮する新たなメモリマッピングソリューションを発見できることを示します。我々は、mallocMuZeroの性能を、Accelerated Linear Algebra(XLA)コンパイラが使用するデフォルトソルバーと、現実的なMLワークロードのベンチマークで比較します。さらに、mallocMuZeroが、最近発表されたAlphaTensor行列乗算モデルの実行時間を改善できることも示します。
OpenAI、Google DeepMind、Anthropicなど、多くの主要なAI企業は、人工汎用知能(AGI)——幅広い認知タスクにおいて人間の性能を達成または超えるAIシステム——の構築を明示的な目標としています。この目標を追求する過程で、特に重大なリスクをもたらす可能性のあるAIシステムを開発・展開するかもしれません。これらの企業はすでにリスクを軽減するためのいくつかの対策を講じていますが、ベストプラクティスはまだ確立されていません。ベストプラクティスの特定を支援するため、私たちはAGI研究所、学界、市民社会から92名の主要な専門家にアンケートを送り、51件の回答を得ました。参加者には、AGI研究所がすべきことに関する50のステートメントにどの程度同意するかを尋ねました。主な発見は、参加者が平均してすべてのステートメントに同意したことです。多くのステートメントは非常に高い同意率を示しました。例えば、回答者の98%が、AGI研究所は展開前のリスク評価、危険な能力の評価、第三者によるモデル監査、モデル使用に対する安全制限、レッドチーミングを実施すべきであると「やや同意」または「強く同意」しました。最終的に、私たちのステートメントリストは、AGI研究所のためのベストプラクティス、標準、規制を開発する取り組みの有益な基盤として役立つ可能性があります。