翻訳付きの日次キュレーションされたAI研究論文
本研究では、大規模言語モデルの基盤アーキテクチャとしてRetentive Network(RetNet)を提案し、訓練の並列性、低コストの推論、そして良好な性能を同時に実現します。理論的には、再帰性と注意機構の関連性を導出します。次に、シーケンスモデリングのための保持機構を提案し、並列、再帰、チャンク単位の再帰という3つの計算パラダイムをサポートします。具体的には、並列表現により訓練の並列性が可能となります。再帰表現は低コストのO(1)推論を実現し、性能を犠牲にすることなくデコードのスループット、レイテンシ、GPUメモリを改善します。チャンク単位の再帰表現は、線形計算量で効率的な長シーケンスモデリングを可能にし、各チャンクは並列にエンコードされながら、チャンクを再帰的に要約します。言語モデリングの実験結果は、RetNetが良好なスケーリング結果、並列訓練、低コストのデプロイメント、効率的な推論を達成することを示しています。これらの興味深い特性により、RetNetは大規模言語モデルにおけるTransformerの強力な後継者となります。コードはhttps://aka.ms/retnetで公開予定です。
現実世界のデータベースでは表形式データが広く使われており、人間がこれを分析・操作するには多大な時間と労力を要します。大規模言語モデル(LLM)の進化により、自然言語入力を用いて表と対話することが可能になり、この機能が現実に近づいています。本論文では、TableGPTを紹介します。これはLLMが外部の機能コマンドを用いて表を理解し操作することを可能にする統一的なファインチューニングフレームワークです。TableGPTは表とのシームレスな対話機能を導入し、質問応答、データ操作(挿入、削除、クエリ、変更操作など)、データ可視化、分析レポート生成、自動予測といった幅広い機能を実現します。TableGPTは、ユーザーが表形式データを容易に活用できるようにすることで、利便性とアクセシビリティを提供することを目指しています。TableGPTの中核には、グローバルな表表現という新たな概念があり、これによりLLMはメタ情報を超えて表全体を包括的に理解することが可能になります。表とテキストの両モダリティを共同で学習させることで、TableGPTは表形式データを深く理解し、コマンドチェーン指示を通じて表に対する複雑な操作を実行する能力を獲得します。重要な点として、TableGPTは外部APIインターフェースに依存せず、自己完結型システムであるという利点を提供します。さらに、効率的なデータ処理フロー、適切な場合のクエリ拒否、プライベートデプロイメントをサポートし、ドメインデータの迅速なファインチューニングを可能にするとともにデータプライバシーを確保することで、特定のユースケースへのフレームワークの適応性を高めています。
大規模言語モデル(LLM)は、特に指示追従データの使用を通じて、人間と言語を用いて対話する際に顕著な能力を発揮しています。MiniGPT-4、LLaVA、X-LLMなどの最近のLLMの進展により、画像、動画、音声といったマルチモーダル入力を組み込むことで、その能力がさらに拡大されています。これらのLLMは、与えられたモダリティ信号に対する正確で詳細な言語理解を生成する点で効果的ですが、入力の特定部分を接地する能力を放棄しているため、粗粒度のマッピングしか構築できません。しかし、テキストと他のモダリティ間の明示的で有益な対応関係は、ユーザー体験を向上させるだけでなく、マルチモーダルLLMの応用シナリオを拡大するのにも役立ちます。そこで我々は、視覚、音声、言語間のクロスモーダル相互作用を実現し、視覚オブジェクトや他の与えられたモダリティに対する細粒度の理解を提供する、視覚接地機能を備えたマルチモーダルLLMであるBuboGPTを提案します。その結果、BuboGPTは、オブジェクトに対する応答や説明を生成する際に、画像内のそのオブジェクトの特定の位置を指し示すことができます。我々の貢献は2つあります:1)SAMに基づくオフ・ザ・シェルフの視覚接地モジュールで、文中のエンティティを抽出し、画像内の対応するマスクを見つけます。2)テキスト、画像、音声の共同理解を可能にするための2段階のトレーニングスキームと指示データセット。実験の結果、BuboGPTは人間との対話中に印象的なマルチモーダル理解と視覚接地能力を達成し、任意のモダリティの組み合わせ(整列しているかどうかに関わらず)が与えられた場合でも一貫して良好な性能を発揮します。我々のコード、モデル、データセットはhttps://bubo-gpt.github.ioで公開されています。
大規模言語モデル(LLMs)は、教師ありの指示/応答データに対する指示ファインチューニング(IFT)を通じて指示追従能力を獲得します。しかし、広く使用されているIFTデータセット(例:Alpacaの52kデータ)には、驚くほど多くの低品質なインスタンスが含まれており、それらは誤ったまたは無関係な応答を含み、IFTにとって誤解を招き有害です。本論文では、強力なLLM(例:ChatGPT)を使用して低品質なデータを自動的に識別し除去する、シンプルで効果的なデータ選択戦略を提案します。この目的のために、52kのAlpacaデータからフィルタリングされた9kの高品質データのみでファインチューニングされたAlpaGasusを紹介します。AlpaGasusは、複数のテストセットでGPT-4によって評価された結果、元のAlpacaを大幅に上回り、その13Bバリアントはテストタスクにおいて教師LLM(Text-Davinci-003)の>90%の性能を達成します。また、7Bバリアントのトレーニング時間を80分(Alpacaの場合)から14分に短縮し、5.7倍の高速トレーニングを実現します。IFTはAlpaca(7B)と同じエポック数で適用されますが、より少ないデータを使用し、4台のNVIDIA A100(80GB)GPUを利用し、元のAlpacaの設定とハイパーパラメータに従っています。全体として、AlpaGasusは、指示チューニングデータに一般的に適用可能な新しいデータ中心のIFTパラダイムを示しており、より高速なトレーニングとより優れた指示追従モデルを実現します。プロジェクトページは以下で利用可能です:https://lichang-chen.github.io/AlpaGasus/。
多くの教師なし学習モデルは、生成タスクまたは識別タスクのいずれか一方に焦点を当てていますが、私たちは両方のタスクファミリーを同時に扱う単一の事前学習段階を使用する統一的な表現学習モデルの可能性を探求します。私たちは、拡散モデルがその主要な候補であると特定しました。拡散モデルは、画像生成、ノイズ除去、インペインティング、超解像、操作などにおいて最先端の手法として注目を集めています。これらのモデルは、U-Netを訓練してノイズを反復的に予測し除去するものであり、その結果として得られるモデルは高忠実度で多様な新しい画像を合成することができます。U-Netアーキテクチャは、畳み込みベースのアーキテクチャとして、中間特徴マップの形で多様な特徴表現を生成します。私たちは、これらの埋め込みがノイズ予測タスクを超えて有用であることを発見しました。それらは識別情報を含んでおり、分類にも活用できるからです。私たちは、これらの埋め込みを抽出し分類タスクに使用する最適な方法を探求し、ImageNet分類タスクにおいて有望な結果を示しました。注意深い特徴選択とプーリングを行うことで、拡散モデルはBigBiGANなどの生成-識別手法を分類タスクにおいて上回ることがわかりました。私たちは、転移学習の領域における拡散モデルを調査し、いくつかの細粒度視覚分類データセットでの性能を検証しました。これらの埋め込みを、競合するアーキテクチャや事前学習によって生成された埋め込みと比較しました。
ビデオの動き予測の手法は、オプティカルフローを使用して特定のビデオフレーム内のすべての点の瞬間的な動きを共同で推定するか、ビデオ全体を通じて個々の点の動きを独立して追跡するかのいずれかです。後者は、オクルージョンを通過しても点を追跡できる強力な深層学習手法においても当てはまります。点を個別に追跡することは、例えばそれらが同じ物理的オブジェクトに属しているために存在する可能性のある点間の強い相関を無視し、性能を損なう可能性があります。本論文では、ビデオ全体を通じて複数の点を共同で追跡するアーキテクチャであるCoTrackerを提案します。このアーキテクチャは、オプティカルフローと追跡の文献からいくつかのアイデアを組み合わせた、新しく柔軟で強力な設計です。これは、特殊なアテンションレイヤーを介して時間内の異なる点の相関をモデル化するトランスフォーマーネットワークに基づいています。トランスフォーマーは、いくつかの軌跡の推定値を反復的に更新します。非常に長いビデオに対してスライディングウィンドウ方式で適用でき、そのために展開されたトレーニングループを設計します。1つから複数の点を共同で追跡でき、いつでも追跡する新しい点を追加することをサポートします。その結果、ほぼすべてのベンチマークで最先端の手法を上回る、柔軟で強力な追跡アルゴリズムが得られます。
本論文では、大規模言語モデル(LLM)に「見る」と「描く」という新たな能力を同時に与える精巧な画像トークナイザーであるSEEDを提案する。これまでの画像トークナイザーの研究は行き詰まっていた。量子化された視覚トークンを用いるフレームワークは、マルチモーダル理解(BLIP-2などと比較して)や生成(Stable Diffusionなどと比較して)において性能や収束性が低く、注目を集めなくなっていた。しかし、我々はその自然な能力に依然として自信を持っており、視覚的表現とテキスト表現を統合し、LLMのオリジナルレシピを用いたスケーラブルなマルチモーダル学習を促進する可能性を信じている。本研究では、SEEDのアーキテクチャと学習において、LLMとの後続のアラインメントを効果的に容易にする2つの重要な原則を特定した。(1) 画像トークンは2D物理パッチの位置に依存せず、1D因果依存関係で生成されるべきであり、LLMの左から右への自己回帰予測メカニズムと整合する内在的な相互依存性を示す。(2) 画像トークンは、単語の意味的抽象化の程度と一致する高レベルのセマンティクスを捉え、トークナイザーの学習段階で識別性と再構成の両方を最適化するべきである。その結果、既存のLLMは、効率的なLoRAチューニングを通じて我々のSEEDを組み込むことで、画像からテキストへの生成とテキストから画像への生成の両方を実行できるようになる。より良い結果をもたらす可能性のある包括的なマルチモーダル事前学習と指示チューニングは、今後の研究に委ねられている。このバージョンのSEEDは、64台のV100 GPUと500万の公開画像テキストペアを使用して5.7日間で学習された。我々の予備的な研究は、多様なマルチモーダルLLMにおける離散視覚トークンの大きな可能性と、より広範な研究における適切な画像トークナイザーの重要性を強調している。
本論文では、Interactive Neural Video Editing (INVE) を提案します。これはリアルタイムのビデオ編集ソリューションであり、まばらなフレーム編集をビデオクリップ全体に一貫して伝播させることで、ビデオ編集プロセスを支援します。本手法は、最近のLayered Neural Atlas (LNA) の研究に着想を得ています。しかし、LNAには2つの大きな欠点があります:(1) インタラクティブ編集には処理速度が遅すぎること、(2) 直接的なフレーム編集や剛体テクスチャ追跡など、一部の編集ユースケースに対するサポートが不十分であることです。これらの課題に対処するため、我々はハッシュグリッドエンコーディングを活用した高効率なネットワークアーキテクチャを採用し、処理速度を大幅に改善しました。さらに、画像とアトラスの間の双方向関数を学習し、ベクトル化編集を導入することで、アトラスとフレームの両方において、より多様な編集を可能にしました。LNAと比較して、INVEは学習と推論時間を5分の1に短縮し、LNAでは不可能だった様々なビデオ編集操作をサポートします。包括的な定量的・定性的分析を通じて、INVEがインタラクティブビデオ編集においてLNAを凌駕する優位性を実証し、その数多くの利点と性能向上を強調します。ビデオ結果については、https://gabriel-huang.github.io/inve/ をご覧ください。
我々は、視覚的プリトレーニングの助けを借りて、汎用ニューラルネットワークによるエンドツーエンドの視覚推論学習が可能かどうかを調査することを目指しています。肯定的な結果は、明示的な視覚的抽象化(例:物体検出)が視覚推論における合成的汎化に不可欠であるという一般的な信念を覆し、視覚認識と推論タスクを解決するニューラルネットワーク「ジェネラリスト」の実現可能性を確認するものです。我々は、各ビデオフレームをトランスフォーマーネットワークを用いて少数のトークンに「圧縮」し、圧縮された時間的文脈に基づいて残りのフレームを再構築する、シンプルで汎用的な自己教師ありフレームワークを提案します。再構築損失を最小化するために、ネットワークは各画像のコンパクトな表現を学習し、時間的文脈から時間的ダイナミクスと物体の永続性を捉える必要があります。我々は、視覚推論ベンチマークであるCATERとACREで評価を行いました。その結果、エンドツーエンドの視覚推論における合成的汎化を達成するためには、プリトレーニングが不可欠であることが観察されました。提案したフレームワークは、画像分類や明示的な物体検出を含む従来の教師ありプリトレーニングを大幅に上回る性能を示しました。
本論文では、畳み込みネットワークとVision Transformerを組み合わせることで、様々な下流タスクを効率的に処理できる新しいVision Transformer、Scale-Aware Modulation Transformer(SMT)を提案する。SMTにおけるScale-Aware Modulation(SAM)は、2つの主要な新規設計を含んでいる。まず、マルチスケールの特徴を捉え、受容野を拡張できるMulti-Head Mixed Convolution(MHMC)モジュールを導入する。次に、軽量でありながら効果的なScale-Aware Aggregation(SAA)モジュールを提案し、異なるヘッド間での情報融合を可能にする。これら2つのモジュールを活用することで、畳み込み変調がさらに強化される。さらに、従来の研究が全ての段階で変調を利用してアテンションフリーネットワークを構築していたのに対し、本論文ではEvolutionary Hybrid Network(EHN)を提案する。EHNは、ネットワークが深くなるにつれて局所的な依存関係からグローバルな依存関係への移行を効果的にシミュレートし、優れた性能を発揮する。大規模な実験により、SMTが幅広い視覚タスクにおいて既存の最先端モデルを大幅に上回ることが実証された。具体的には、11.5M / 2.4GFLOPsおよび32M / 7.7GFLOPsのSMTは、ImageNet-1Kにおいてそれぞれ82.2%および84.3%のtop-1精度を達成する。ImageNet-22Kで224^2解像度で事前学習した後、224^2および384^2解像度でファインチューニングすると、それぞれ87.1%および88.1%のtop-1精度を達成する。Mask R-CNNを用いた物体検出では、1xおよび3xスケジュールで学習したSMT baseは、COCOにおいてSwin Transformerをそれぞれ4.2および1.3 mAP上回る。UPerNetを用いたセマンティックセグメンテーションでは、ADE20Kにおいて、シングルスケールおよびマルチスケールでのSMT baseのテスト結果は、Swinをそれぞれ2.0および1.1 mIoU上回る。
シミュレーションは現代の自動運転開発の基盤を形成しています。シミュレータは、人間や車両、その環境を危険にさらすことなく、運転システムの開発、テスト、改善を支援します。しかし、シミュレータは大きな課題に直面しています。それは、現実的でスケーラブルでありながら興味深いコンテンツに依存していることです。最近のレンダリングやシーン再構成の進歩により、静的なシーンアセットの作成は大きく進歩しましたが、それらのレイアウト、ダイナミクス、および動作のモデリングは依然として困難です。本研究では、動的な交通シーン生成のための教師信号として言語に着目します。我々のモデルであるLCTGenは、大規模言語モデルとトランスフォーマーベースのデコーダアーキテクチャを組み合わせており、マップデータセットから可能性の高い位置を選択し、初期の交通分布と各車両のダイナミクスを生成します。LCTGenは、無条件および条件付きの交通シーン生成において、リアリズムと忠実度の点で従来の研究を上回ります。コードとビデオはhttps://ariostgx.github.io/lctgenで公開予定です。