翻訳付きの日次キュレーションされたAI研究論文
条件付き音楽生成のタスクに取り組みます。本論文では、複数の圧縮された離散音楽表現(トークン)のストリーム上で動作する単一の言語モデル(LM)であるMusicGenを紹介します。従来の研究とは異なり、MusicGenは単一段階のトランスフォーマーLMと効率的なトークンインターリーブパターンで構成されており、階層的またはアップサンプリングといった複数モデルのカスケードを必要としません。このアプローチに従い、MusicGenがテキスト記述やメロディック特徴に基づいて高品質なサンプルを生成し、生成される出力に対する制御を向上させる方法を示します。自動評価と人間による評価の両方を考慮した広範な実証的評価を行い、提案手法が標準的なテキストから音楽へのベンチマークにおいて評価されたベースラインを上回ることを示します。アブレーション研究を通じて、MusicGenを構成する各コンポーネントの重要性を明らかにします。音楽サンプル、コード、およびモデルはhttps://github.com/facebookresearch/audiocraftで公開されています。
高品質な指示と応答は、インタラクティブな自然言語タスクにおける大規模言語モデルのゼロショット性能にとって不可欠である。複雑な視覚シーンを含むインタラクティブな視覚言語タスクにおいては、多様で創造的な指示-応答ペアを大量に用意することが視覚言語モデル(VLM)のチューニングに必要である。しかしながら、現在利用可能な視覚言語指示-応答ペアの量、多様性、創造性は限られており、インタラクティブなVLMの汎化に課題を残している。本稿では、MultI-Modal In-Context Instruction Tuning(MIMIC-IT)というデータセットを紹介する。このデータセットは280万のマルチモーダルな指示-応答ペアを含み、そのうち220万のユニークな指示は画像や動画から導出されている。各ペアはマルチモーダルな文脈情報を伴い、VLMの知覚、推論、計画能力を強化することを目的とした会話的文脈を形成する。指示-応答の収集プロセスはSyphusと呼ばれ、人間の専門知識とGPTの能力を組み合わせた自動アノテーションパイプラインを用いてスケールアップされている。MIMIC-ITデータセットを使用して、Otterという大規模なVLMを訓練した。視覚言語ベンチマークで実施された広範な評価に基づき、Otterはマルチモーダルな知覚、推論、文脈内学習において顕著な熟練度を示すことが観察された。人間による評価では、ユーザーの意図に効果的に沿っていることが明らかになった。我々はMIMIC-ITデータセット、指示-応答収集パイプライン、ベンチマーク、およびOtterモデルを公開する。
本論文では、ビデオシーケンスから密で長距離の動きを推定するための新しいテスト時最適化手法を提案する。従来のオプティカルフローや粒子ビデオトラッキングアルゴリズムは、通常、限られた時間ウィンドウ内で動作し、オクルージョンを介したトラッキングや推定された動きの軌跡のグローバルな一貫性の維持に苦労している。我々は、ビデオ内のすべてのピクセルの正確で全長の動き推定を可能にする、OmniMotionと名付けた完全かつグローバルに一貫した動き表現を提案する。OmniMotionは、準3D正準ボリュームを使用してビデオを表現し、局所空間と正準空間の間の全単射を介してピクセル単位のトラッキングを行う。この表現により、グローバルな一貫性を確保し、オクルージョンを介したトラッキングを行い、カメラとオブジェクトの動きの任意の組み合わせをモデル化することが可能となる。TAP-Vidベンチマークおよび実世界の映像に対する広範な評価により、我々の手法が従来の最先端手法を量的および質的に大きく上回ることが示された。詳細な結果についてはプロジェクトページを参照されたい: http://omnimotion.github.io/
大規模言語モデル(LLMs)を基盤とした会話エージェントは、視覚データとの新しいインタラクション方法を提供しています。これまでに画像ベースの会話モデルの初期試みはありましたが、本研究では、ビデオベースの会話という未開拓の領域に取り組むため、Video-ChatGPTを導入します。これは、ビデオ適応型の視覚エンコーダとLLMを統合したマルチモーダルモデルです。このモデルは、ビデオに関する人間らしい会話を理解し、生成することが可能です。私たちは、手動および半自動化パイプラインを通じて取得された10万のビデオ-指示ペアからなる新しいデータセットを紹介します。このパイプラインは拡張性が高く、ラベルノイズに対して頑健です。また、ビデオベースの対話モデルの強みと弱みを客観的に分析するための定量的評価フレームワークを開発しました。私たちのコード、モデル、指示セット、デモはhttps://github.com/mbzuai-oryx/Video-ChatGPTで公開されています。
事前学習済み画像拡散モデルの優れた能力は、固定サイズの画像生成だけでなく、パノラマ作成にも活用されています。しかし、複数の画像を単純に結合すると、目立つ継ぎ目が生じることがよくあります。最近の技術では、複数のウィンドウで同時に拡散を行い、重複領域の潜在特徴を平均化することでこの問題に対処しようとしています。しかし、シームレスなモンタージュ生成に焦点を当てたこれらのアプローチでは、異なるシーンを1枚の画像内でブレンドすることで、しばしば不整合な出力が生じます。この制限を克服するため、我々はSyncDiffusionを提案します。これは、知覚的類似性損失からの勾配降下を通じて複数の拡散を同期させるプラグアンドプレイモジュールです。具体的には、各ノイズ除去ステップで予測されたノイズ除去画像を使用して知覚損失の勾配を計算し、整合性のあるモンタージュを実現するための有意義なガイダンスを提供します。実験結果は、我々の手法が従来の方法と比べて著しく整合性の高い出力を生成することを示しています(ユーザー調査では66.35%対33.65%)。同時に、忠実度(GIQAで評価)と入力プロンプトとの互換性(CLIPスコアで測定)も維持しています。
本論文では、Matting Anything Model(MAM)を提案する。これは、柔軟かつインタラクティブな視覚的または言語的なユーザープロンプトに基づいて、画像内の任意のインスタンスのアルファマットを推定するための効率的で汎用的なフレームワークである。MAMは、従来の専門的な画像マット推定ネットワークに対して以下の重要な利点を有する:(i)MAMは、セマンティックマット推定、インスタンスマット推定、参照画像マット推定など、さまざまなタイプの画像マット推定を単一のモデルで処理可能である。(ii)MAMは、Segment Anything Model(SAM)の特徴マップを活用し、軽量なMask-to-Matte(M2M)モジュールを採用して、反復的なリファインメントを通じてアルファマットを予測する。このモジュールは、わずか270万の学習可能なパラメータしか持たない。(iii)SAMを組み込むことで、MAMは、画像マット推定のインタラクティブな使用に必要なユーザー介入を、トリマップからボックス、ポイント、またはテキストプロンプトへと簡素化する。我々は、MAMの性能をさまざまな画像マット推定ベンチマークで評価し、実験結果は、MAMが各ベンチマークにおいて異なるメトリクスで最先端の専門的な画像マット推定モデルと同等の性能を達成することを示している。全体として、MAMは優れた汎化能力を示し、より少ないパラメータでさまざまな画像マット推定タスクを効果的に処理できるため、統一された画像マット推定の実用的なソリューションとなる。我々のコードとモデルは、https://github.com/SHI-Labs/Matting-Anything で公開されている。
重み共有型スーパーネットは、最先端(SOTA)のニューラルアーキテクチャサーチ(NAS)フレームワークにおいて、性能推定の重要な要素となっています。スーパーネットは再学習なしで異なるサブネットワークを直接生成できますが、重み共有のため、これらのサブネットワークの品質が保証されるわけではありません。機械翻訳や事前学習済み言語モデリングなどのNLPタスクでは、同じモデルアーキテクチャであっても、スーパーネットとスクラッチからの学習との間に大きな性能差が観察されます。そのため、スーパーネットを直接使用することはできず、最適なアーキテクチャを見つけた後に再学習が必要です。 本研究では、スーパーネットの表現力を向上させるために、Mixture-of-Experts(MoE)を採用した一般化されたスーパーネットの定式化であるMixture-of-Supernetsを提案します。これにより、異なるサブネットワークはモデルの重みを直接共有するのではなく、アーキテクチャに基づくルーティングメカニズムを通じて共有されます。その結果、異なるサブネットワークのモデル重みは、それぞれの特定のアーキテクチャに合わせてカスタマイズされ、重み生成は勾配降下法によって学習されます。NLP向けの既存の重み共有型スーパーネットと比較して、本手法は再学習時間を最小化し、学習効率を大幅に向上させることができます。さらに、提案手法は、高速な機械翻訳モデルを構築するためのNASにおいてSOTA性能を達成し、HAT(機械翻訳向けのSOTA NAS)と比較して、レイテンシーとBLEUのトレードオフを改善します。また、メモリ効率の良いタスク非依存型BERTモデルを構築するためのNASにおいてもSOTA性能を達成し、NAS-BERTやAutoDistilを様々なモデルサイズで上回ります。
単一画像から物体の深度を推定することは、多くの視覚、ロボティクス、グラフィックスアプリケーションにおいて重要な課題である。しかし、現在の手法では多様なシーンにおける物体の深度を正確に推定することがしばしば困難である。本研究では、学習された背景を用いて入力物体画像を適応させる、シンプルでありながら効果的な「Background Prompting」戦略を提案する。この背景プロンプトは、小規模な合成物体データセットのみを使用して学習される。実画像上で物体の深度を推定する際には、セグメント化された物体を学習された背景プロンプトに配置し、既存の深度ネットワークを実行する。Background Promptingは、深度ネットワークが背景の変動に対して不変となるようにすることで、前景物体に集中することを支援する。さらに、Background Promptingは合成物体画像と実物体画像の間のドメインギャップを最小化し、単純なファインチューニングよりも優れたsim2realの一般化を実現する。複数の合成および実データセットにおける結果は、様々な既存の深度ネットワークにおいて実物体の深度が一貫して改善されることを示している。コードと最適化された背景プロンプトは、https://mbaradad.github.io/depth_prompt で公開されている。
大規模なテキスト-画像ペアデータセットで学習された拡散モデルによって推進され、テキストから画像への合成手法は説得力のある結果を示しています。しかし、プロンプトに複数のオブジェクト、属性、空間構成が含まれる場合、これらのモデルは依然としてテキストプロンプトを正確に追従するのに失敗します。本論文では、拡散モデルのクロスアテンション層とセルフアテンション層の両方に潜在的な原因を特定します。サンプリングプロセス中に与えられたレイアウトに従ってアテンションマップを再フォーカスするための2つの新しい損失関数を提案します。大規模言語モデルによって合成されたレイアウトを使用して、DrawBenchとHRSベンチマークで包括的な実験を行い、提案した損失関数が既存のテキストから画像への手法に容易かつ効果的に統合でき、生成された画像とテキストプロンプトの整合性を一貫して向上させることを示します。
テキストから画像を生成するモデルは、さまざまなドメインで高解像度の画像合成を可能にしましたが、ユーザーが生成したい内容を指定する必要があります。本論文では、その逆問題を考察します——異なる画像のコレクションが与えられたとき、各画像を表現する生成概念を発見できるでしょうか?我々は、画像のコレクションから生成概念を発見する教師なしアプローチを提案し、絵画における異なる芸術スタイル、キッチンシーンにおける物体や照明、ImageNet画像における画像クラスを分離します。このような生成概念が画像の内容を正確に表現し、新しい芸術的およびハイブリッドな画像を生成するために再結合および構成できること、さらに下流の分類タスクの表現として使用できることを示します。
BlenderBot 3xを紹介します。これは、会話モデルBlenderBot 3のアップデート版であり、システムの利用者から収集された有機的な会話データとフィードバックデータを用いてトレーニングされ、そのスキルと安全性の両方を向上させています。研究コミュニティによるさらなる進展を促すため、参加者の匿名化されたインタラクションデータを公開しています。有機的なデータを用いたモデルのトレーニングは困難を伴います。なぜなら、「実世界」での人々とのインタラクションには、高品質な会話やフィードバックだけでなく、敵対的で有害な行動も含まれるからです。私たちは、有益な教師から学びつつ、モデルを不適切または有害な応答に誘導しようとする人々から学ぶことを避ける技術を研究しています。BlenderBot 3xは、BlenderBot 3と比較して会話において好まれるだけでなく、困難な状況でもより安全な応答を生成することが示されています。現在のモデルはまだ完璧とは言えませんが、本研究で探求した技術を継続的に使用することで、さらなる改善が可能であると信じています。
「領域」のような視覚特有の概念は、物体検出などのタスクにおいて一般的な機械学習フレームワークを拡張する上で重要な役割を果たしてきました。教師あり学習における領域ベースの検出器の成功と、コントラスティブ学習のための画像内手法の進展を踏まえ、我々は再構成型事前学習における領域の活用を探求します。Masked Autoencoding(MAE)をベースラインおよびインスピレーションとして出発点とし、画像と領域の間の一対多のマッピングに対処するために特化した並列的な事前タスクを提案します。このような領域は教師なしで生成可能であるため、我々のアプローチ(R-MAE)はMAEの広範な適用性を継承しつつ、より「領域を意識した」ものとなっています。R-MAEの開発過程で徹底的な分析を行い、効果的かつ効率的なバリアント(MAEに対して1.3%のオーバーヘッド)に収束しました。さらに、様々な事前学習データや下流の検出・セグメンテーションベンチマークに一般化した際に、一貫した定量的な改善を示しています。最後に、R-MAEの挙動と可能性を理解するための広範な定性的な可視化を提供します。コードはhttps://github.com/facebookresearch/r-maeで公開予定です。
NeRFモデルが広く実世界で展開されることを妨げる重要な障害は、正確なカメラポーズへの依存性である。その結果、カメラポーズとシーン表現を同時に最適化するNeRFモデルの拡張に対する関心が高まっている。これは、既知の失敗モードを持つ既存のSfMパイプラインに代わる選択肢を提供する。ポーズなしのNeRFに対する既存のアプローチは、事前のポーズ分布や粗いポーズ初期化などの限られた仮定の下で動作するため、一般的な設定では効果が低い。本研究では、ポーズ構成に関する仮定を緩和し、カメラポーズとニューラルラジアンスフィールドを同時に推定する新しいアプローチ、LU-NeRFを提案する。我々のアプローチは、ローカルからグローバルへと段階的に動作し、まずデータのローカルサブセット、すなわちミニシーンを最適化する。LU-NeRFは、この困難な少数ショットタスクに対してローカルなポーズとジオメトリを推定する。ミニシーンのポーズは、ロバストなポーズ同期ステップを経てグローバルな参照フレームに統合され、最終的なポーズとシーンのグローバル最適化が行われる。我々のLU-NeRFパイプラインは、ポーズ事前分布に関する制限的な仮定を設けることなく、ポーズなしのNeRFに対する従来の試みを上回る性能を示す。これにより、ベースラインとは異なり、一般的なSE(3)ポーズ設定で動作することが可能となる。また、我々のモデルは、低テクスチャや低解像度の画像においてCOLMAPと比較しても良好な結果を示し、特徴ベースのSfMパイプラインと補完的であることが示唆される。
本論文では、視覚的質問応答をモジュール化されたコード生成として定式化するフレームワークを提案する。従来のモジュール化アプローチとは異なり、本手法では追加の学習を必要とせず、事前学習済みの言語モデル(LM)、画像キャプションペアで事前学習された視覚モデル、およびインコンテキスト学習に使用される50のVQA例に依存している。生成されたPythonプログラムは、算術演算と条件分岐ロジックを用いて視覚モデルの出力を呼び出し、組み合わせる。本手法は、コード生成を採用しないFew-shotベースラインと比較して、COVRデータセットでは少なくとも3%、GQAデータセットでは約2%の精度向上を達成している。
本論文では、ビデオトランスフォーマー、特にViViT(Video Vision Transformer)モデルのFactorised Encoderバージョンをアクション認識タスクのベースラインとして、その訓練時間とメモリ消費量の課題に取り組む。Factorised Encoderバリアントは、多くの最先端手法で採用されている後期融合アプローチに従っている。ViViTの異なるバリアントの中で速度と精度のトレードオフが優れているにもかかわらず、その訓練時間とメモリ要件は依然として大きな障壁となっている。我々の手法は、この障壁を低減するために設計されており、訓練中に空間トランスフォーマーを凍結するというアイデアに基づいている。これを単純に行うと低精度のモデルが得られるが、(1) 時間情報を処理するモジュールである時間トランスフォーマーを適切に初期化し、(2) 凍結された空間表現(入力画像の特定の領域に選択的に焦点を当てるモジュール)を時間トランスフォーマーに接続するコンパクトなアダプターモデルを導入することで、精度を犠牲にすることなく空間トランスフォーマーを凍結する利点を享受できることを示す。6つのベンチマークにわたる広範な実験を通じて、提案する訓練戦略が訓練コスト(約50%削減)とメモリ消費量を大幅に削減しつつ、ベースラインモデルと比較して性能を維持または最大1.79%向上させることを実証する。さらに、我々のアプローチにより、より大きな画像トランスフォーマーモデルを空間トランスフォーマーとして利用し、同じメモリ消費量でより多くのフレームにアクセスする能力が解放される。
球面CNNは、球面上の関数に対してCNNを一般化し、球面畳み込みを主要な線形演算として利用する。球面畳み込みを最も正確かつ効率的に計算する方法は、スペクトル領域(畳み込み定理を介して)であるが、これは通常の平面畳み込みよりも依然としてコストが高い。このため、球面CNNの応用はこれまで、低いモデル容量でアプローチ可能な小規模な問題に限定されてきた。本研究では、球面CNNをより大規模な問題にスケールアップする方法を示す。これを実現するために、一般的なモデルコンポーネントの新たな変種、ハードウェアアクセラレータの特性を活用するコア演算の実装、およびモデルの特性を活用するアプリケーション固有の入力表現といった重要な改善を行った。実験結果は、我々の大規模な球面CNNが、以前は等変グラフニューラルネットワークが支配的であったQM9分子ベンチマークのいくつかのターゲットにおいて最先端の性能を達成し、複数の気象予報タスクでも競争力のある性能を発揮することを示している。我々のコードはhttps://github.com/google-research/spherical-cnnで公開されている。