翻訳付きの日次キュレーションされたAI研究論文
大規模言語モデル(LLM)と指示チューニングの台頭により、現在では指示チューニングされた大規模言語・視覚モデル(LLVM)がトレンドとなっています。このトレンドでは、特定の目的に合わせて多数の指示チューニングデータセットを入念にキュレーションするか、LLVMを拡大して膨大な視覚言語(VL)データを管理するかのいずれかのアプローチが取られています。しかし、現在のLLVMは、セグメンテーション、検出、シーングラフ生成(SGG)、光学文字認識(OCR)などの視覚知覚タスクにおいて、専門的なコンピュータビジョン(CV)モデルから得られる詳細かつ包括的な現実世界のシーン理解を無視しています。代わりに、既存のLLVMは主にそのLLMバックボーンの大規模な容量と創発的な能力に依存しています。そこで、我々は新しいLLVMである「Mixture of All Intelligence(MoAI)」を提案します。MoAIは、外部のセグメンテーション、検出、SGG、OCRモデルから得られた補助的な視覚情報を活用します。MoAIは、新たに導入された2つのモジュール、MoAI-CompressorとMoAI-Mixerを通じて動作します。外部のCVモデルの出力を言語化した後、MoAI-Compressorはそれらを整列・圧縮し、VLタスクに関連する補助的な視覚情報を効率的に利用します。次に、MoAI-Mixerは、Mixture of Expertsの概念を利用して、(1)視覚特徴、(2)外部CVモデルからの補助特徴、(3)言語特徴の3種類の知能を統合します。この統合により、MoAIは、モデルサイズを拡大したり、追加の視覚指示チューニングデータセットをキュレーションすることなく、オブジェクトの存在、位置、関係、OCRなど、現実世界のシーン理解に関連する多数のゼロショットVLタスクにおいて、オープンソースおよびクローズドソースのLLVMを大幅に上回る性能を発揮します。
Chronosを紹介します。これは、事前学習済みの確率的時系列モデルのためのシンプルかつ効果的なフレームワークです。Chronosは、スケーリングと量子化を用いて時系列値を固定語彙にトークン化し、これらのトークン化された時系列に対して既存のTransformerベースの言語モデルアーキテクチャを交差エントロピー損失を用いて学習します。Chronosモデルは、T5ファミリー(2000万から7億1000万パラメータまで)を基に、公開されている大規模なデータセットのコレクションで事前学習を行い、汎化性能を向上させるためにガウス過程を用いて生成した合成データセットを補完しました。42のデータセットからなる包括的なベンチマークにおいて、古典的なローカルモデルと深層学習手法の両方を含む比較を行った結果、Chronosモデルは以下の点を示しました:(a) 学習コーパスに含まれるデータセットにおいて他の手法を大幅に上回る性能を発揮し、(b) 新しいデータセットに対するゼロショット性能が、それらのデータセットに特化して学習された手法と同等か、場合によっては優れていることです。これらの結果は、Chronosモデルが多様なドメインの時系列データを活用して未見の予測タスクにおけるゼロショット精度を向上させることができ、事前学習済みモデルが予測パイプラインを大幅に簡素化する有効なツールとして位置づけられることを示しています。
大規模言語モデル(LLM)を複数の専門領域(コーディング、数学的推論、世界知識など)で能力を備えるように効率的に訓練する方法を調査します。我々の手法であるBranch-Train-MiX(BTX)は、シードモデルから始まり、高いスループットと低い通信コストで並列的に専門家を訓練するために分岐させます。個々の専門家が非同期に訓練された後、BTXはそれらのフィードフォワードパラメータをMixture-of-Expert(MoE)層の専門家として統合し、残りのパラメータを平均化します。その後、トークンレベルのルーティングを学習するためのMoEファインチューニング段階を経ます。BTXは、ルーティングを学習するMoEファインチューニング段階を持たないBranch-Train-Merge手法と、専門家を非同期に訓練する段階を省略するスパースアップサイクリングという2つの特殊ケースを一般化します。他のアプローチと比較して、BTXは最高の精度と効率のトレードオフを達成します。
高品質な人間によるラベル付けが施された画像-キャプションデータセットの作成は、視覚言語モデル(VLM)の開発における大きなボトルネックとなっています。本研究では、大規模言語モデル(LLM)と画像生成モデルの強みを活用し、効率的かつ効果的なVLMトレーニングのための合成画像-テキストペアを生成する新しいアプローチを提案します。私たちの手法では、LLMによって生成されたキャプションから始めて、テキストから画像へのモデルを事前学習させ、画像埋め込みを合成します。これらの合成ペアは、VLMのトレーニングに使用されます。大規模な実験により、合成データでトレーニングされたVLMは、画像キャプション生成において同等の性能を示し、人間による注釈データのみでトレーニングされたモデルに比べて必要なデータ量が大幅に少ないことが実証されました。特に、合成データセットによる拡張により、ベースラインを17%上回る性能を達成しました。さらに、画像埋め込み空間での合成は、ピクセル空間での合成に比べて25%高速であることを示しました。この研究は、大規模でカスタマイズ可能な画像データセットを生成する有望な技術を導入し、データ効率とリソース活用の向上を通じて、VLMの性能向上とさまざまな分野での幅広い適用可能性をもたらします。
人間の動作生成は、生成コンピュータビジョンにおける重要な課題であり、長いシーケンスの効率的な動作生成を実現することは依然として困難です。最近の状態空間モデル(SSMs)、特にMambaの進展は、効率的なハードウェア対応設計による長いシーケンスのモデリングにおいて大きな可能性を示しており、これに基づいて動作生成モデルを構築する有望な方向性として注目されています。しかし、SSMsを動作生成に適応させることは、動作シーケンスをモデル化するための専門的な設計アーキテクチャの欠如により困難を伴います。これらの課題に対処するため、我々はMotion Mambaを提案します。これは、SSMsを利用した先駆的な動作生成モデルを提示するシンプルで効率的なアプローチです。具体的には、フレーム間の動作の一貫性を保つために、対称的なU-Netアーキテクチャにわたって異なる数の独立したSSMモジュールをアンサンブルする階層的時間Mamba(HTM)ブロックを設計しました。また、時間フレーム内での正確な動作生成を強化するために、潜在的なポーズを双方向に処理する双方向空間Mamba(BSM)ブロックを設計しました。提案手法は、HumanML3DおよびKIT-MLデータセットにおいて、従来の最良の拡散ベースの手法と比較して最大50%のFID改善と最大4倍の高速化を達成し、高品質な長いシーケンスの動作モデリングとリアルタイムの人間の動作生成の強力な能力を実証しています。プロジェクトウェブサイトはこちらです:https://steve-zeyu-zhang.github.io/MotionMamba/
本論文では、DragAnythingを紹介する。これは、エンティティ表現を利用して、制御可能な映像生成において任意の物体のモーション制御を実現するものである。既存のモーション制御手法と比較して、DragAnythingはいくつかの利点を提供する。まず、軌道ベースのアプローチは、他のガイダンス信号(例:マスク、深度マップ)の取得が労力を要する場合に、ユーザーインタラクションにおいてより使いやすい。ユーザーはインタラクション中に線(軌道)を描くだけでよい。次に、我々のエンティティ表現は、任意の物体を表現可能なオープンドメインの埋め込みとして機能し、背景を含む多様なエンティティのモーション制御を可能にする。最後に、我々のエンティティ表現は、複数の物体に対する同時かつ個別のモーション制御を可能にする。広範な実験により、DragAnythingがFVD、FID、およびユーザースタディにおいて最先端の性能を達成し、特に物体のモーション制御において、従来の手法(例:DragNUWA)を26%上回るヒューマンボーティング結果を示すことが実証された。
本論文では、データセンターおよびクロスデバイスアプリケーションにおける大規模分散型および連合型計算をサポートするために設計されたJAXベースのライブラリ、FAXを紹介します。FAXは、JAXのシャーディングメカニズムを活用し、TPUやPathwaysを含む最先端のJAXランタイムをネイティブにターゲットとします。FAXは、連合型計算のためのビルディングブロックをJAXのプリミティブとして組み込みます。これにより、3つの主要な利点が得られます。第一に、FAXの計算はXLA HLOに変換可能です。第二に、FAXは連合型自動微分の完全な実装を提供し、連合型計算の表現を大幅に簡素化します。最後に、FAXの計算は既存の生産環境のクロスデバイス連合型計算システムに解釈可能です。FAXが、データセンターにおける連合型計算のためのプログラミングが容易で、高性能かつスケーラブルなフレームワークを提供することを示します。FAXはhttps://github.com/google-research/google-research/tree/master/faxで利用可能です。
モバイルマニピュレーションにおける未解決の問題の一つは、環境内を移動するためのナビゲーションと物体を操作するためのマニピュレーションの両方に利用できる統一的な方法で物体やシーンを表現することです。後者には微細な幾何学を捉えつつ、細かい粒度の意味を理解することが求められる一方、前者には広大な物理的スケールに内在する複雑さを捉えることが必要です。本研究では、GeFF(Generalizable Feature Fields)を提案します。これは、ナビゲーションとマニピュレーションの両方に利用できる統一的な表現として機能するシーンレベルの汎用化可能なニューラル特徴フィールドであり、リアルタイムで動作します。これを実現するために、生成的ノベルビュー合成を事前学習タスクとして扱い、その結果得られる豊富なシーンプライアをCLIP特徴蒸留を通じて自然言語と整合させます。マニピュレータを装備した四足歩行ロボットにGeFFを導入し、動的なシーンにおけるオープン語彙モバイルマニピュレーションにおいて、GeFFがオープンセットの物体に汎化する能力と実行時間を評価することで、このアプローチの有効性を実証します。