翻訳付きの日次キュレーションされたAI研究論文
PaliGemmaは、SigLIP-So400mビジョンエンコーダとGemma-2B言語モデルを基盤としたオープンなVision-Language Model(VLM)です。このモデルは、汎用性が高く幅広い知識を持つベースモデルとして訓練されており、転移学習に効果的です。PaliGemmaは、多様なオープンワールドタスクにおいて優れた性能を発揮します。私たちは、標準的なVLMベンチマークに加え、リモートセンシングやセグメンテーションなどより専門的なタスクを含む、約40種類の多様なタスクでPaliGemmaを評価しました。
大規模言語モデル(LLMs)は、多様なタスクにおいて卓越した性能と広範な可能性を示しています。しかし、リソースが限られた環境での高性能なLLMsの展開は、業界で大きな注目を集めています。GPUハードウェアリソースが限られている場合、CPU上での代替オプションを探ることができます。財務的負担を軽減し、ハードウェアリソースによる制約を緩和するためには、推論性能の最適化が必要です。本論文では、CPU上でLLMsを高速化するための容易に展開可能な推論性能最適化ソリューションを紹介します。このソリューションでは、精度を保証しながらKVキャッシュサイズを削減する効果的な方法を実装しています。分散推論最適化アプローチを提案し、oneAPI Collective Communications Libraryに基づいて実装しました。さらに、CPU上でのLLMsの最適化アプローチを提案し、最も一般的に使用されるモデルに対して特化した最適化を実施しています。コードはhttps://github.com/intel/xFasterTransformerでオープンソース化されています。
視覚的指示チューニングは、大規模マルチモーダルモデル(LMM)の能力を向上させる上で大きな進展を遂げてきました。しかし、既存のオープンなLMMは主に単一画像タスクに焦点を当てており、複数画像シナリオへの応用はまだ十分に探求されていません。さらに、従来のLMM研究は異なるシナリオを個別に扱っており、新たに出現する能力をクロスシナリオで一般化することが不可能でした。この問題に対処するため、我々はLLaVA-NeXT-Interleaveを導入し、LMMにおいて複数画像、複数フレーム(ビデオ)、複数視点(3D)、および複数パッチ(単一画像)のシナリオを同時に扱います。これらの能力を実現するために、インターリーブされたデータ形式を一般的なテンプレートと見なし、4つの主要なドメインにまたがる14のタスクと41のデータセットを含む1,177.6kサンプルのM4-Instructデータセットを構築しました。また、LMMの複数画像性能を包括的に評価するためにLLaVA-Interleave Benchをキュレーションしました。広範な実験を通じて、LLaVA-NeXT-Interleaveは複数画像、ビデオ、3Dのベンチマークでリーダー的な結果を達成しつつ、単一画像タスクの性能も維持しています。さらに、我々のモデルは、異なる設定やモダリティ間でタスクを転移するなど、いくつかの新たな能力も示しています。コードはhttps://github.com/LLaVA-VL/LLaVA-NeXTで公開されています。
4DiMを紹介します。これは、一般的なシーンの1枚以上の画像と、カメラポーズおよびタイムスタンプのセットを条件とした、4D新規視点合成(NVS)のためのカスケード型拡散モデルです。4Dトレーニングデータの限られた可用性による課題を克服するため、3D(カメラポーズ付き)、4D(ポーズ+時間)、およびビデオ(時間のみ、ポーズなし)データの共同トレーニングを提唱し、これを可能にする新しいアーキテクチャを提案します。さらに、単眼メトリック深度推定器を使用してSfMポーズデータを較正し、メトリックスケールのカメラ制御を実現します。モデル評価のために、現在の評価スキームの欠点を補い、豊かにする新しいメトリクスを導入し、3D NVSのための既存の拡散モデルと比較して、忠実度とポーズ制御の両方で最先端の結果を示すと同時に、時間的ダイナミクスを処理する能力を追加します。4DiMは、パノラマステッチングの改善、ポーズ条件付きビデオからビデオへの変換、およびその他のいくつかのタスクにも使用されます。概要については、https://4d-diffusion.github.io をご覧ください。
ビデオ入力に従って意味的かつ時間的に整合したオーディオコンテンツを生成することは、特にテキストからビデオ生成における画期的な進歩を受けて、研究者の注目の的となっています。本研究では、ビデオからオーディオを生成するパラダイムについて洞察を提供することを目指し、視覚エンコーダ、補助的埋め込み、およびデータ拡張技術という3つの重要な側面に焦点を当てます。シンプルでありながら驚くほど効果的な直感に基づいて構築された基本モデルVTA-LDMを出発点として、アブレーションスタディを通じて様々な視覚エンコーダと補助的埋め込みを探求します。生成品質とビデオ-オーディオ同期整合性を重視した包括的な評価パイプラインを用いて、我々のモデルが最先端のビデオからオーディオ生成能力を発揮することを実証します。さらに、異なるデータ拡張手法が生成フレームワークの全体的な能力を向上させる上での影響について重要な洞察を提供します。意味的および時間的観点から同期したオーディオを生成するという課題を進展させる可能性を示します。これらの洞察が、より現実的で正確なオーディオビジュアル生成モデルの開発に向けた足がかりとなることを期待しています。
本論文では、VEnhancerを紹介します。これは、空間領域における詳細の追加と時間領域における合成された詳細な動きを加えることで、既存のテキストからビデオ生成の結果を向上させる生成型時空間拡張フレームワークです。生成された低品質のビデオを入力として、我々のアプローチは、統一されたビデオ拡散モデルを通じて、任意のアップサンプリング空間および時間スケールで空間的および時間的解像度を同時に向上させることができます。さらに、VEnhancerは、生成されたビデオの空間的なアーティファクトや時間的なちらつきを効果的に除去します。これを実現するために、事前学習済みのビデオ拡散モデルに基づいて、ビデオControlNetを学習し、低フレームレートおよび低解像度のビデオに対する条件として拡散モデルに注入します。このビデオControlNetを効果的に学習するために、時空間データ拡張とビデオ対応の条件付けを設計しました。これらの設計により、VEnhancerは学習中に安定し、エレガントなエンドツーエンドの学習方式を共有します。広範な実験により、VEnhancerがAI生成ビデオの拡張において、既存の最先端のビデオ超解像および時空間超解像手法を凌駕することが示されました。さらに、VEnhancerを活用することで、既存のオープンソースの最先端テキストからビデオ生成手法であるVideoCrafter-2が、ビデオ生成ベンチマークであるVBenchにおいてトップに到達しました。
テキストから画像(T2I)モデルのカスタマイズは、特にパーソナライゼーション、スタイライゼーション、条件付き生成などの分野で、最近大きな進展を遂げています。しかし、この進歩をビデオ生成に拡張することはまだ初期段階にあり、主にカスタマイズされたビデオデータの不足が原因です。本研究では、カスタマイズされたビデオデータを必要とせずに、テキストからビデオ(T2V)モデルをカスタマイズするための新しい汎用フレームワーク「Still-Moving」を提案します。このフレームワークは、ビデオモデルがテキストから画像(T2I)モデル(例えば、インフレーションを介して)の上に構築されている主要なT2V設計に適用されます。私たちは、静止画像データのみでトレーニングされたカスタマイズされたT2Iモデル(例えば、DreamBoothやStyleDropを使用)へのアクセスを前提としています。カスタマイズされたT2Iモデルの重みをT2Vモデルに単純に組み込むと、しばしば重大なアーティファクトが発生するか、カスタマイズデータへの十分な忠実度が得られません。この問題を克服するために、注入されたT2I層によって生成される特徴を調整する軽量の「Spatial Adapter」をトレーニングします。重要なことに、私たちのアダプターは、カスタマイズされたT2Iモデルによって生成された画像サンプルから構築された「凍結ビデオ」(つまり、繰り返し画像)でトレーニングされます。このトレーニングは、新しい「Motion Adapter」モジュールによって促進され、このような静的ビデオでトレーニングしながら、ビデオモデルのモーションプライアを保持することができます。テスト時には、Motion Adapterモジュールを削除し、トレーニングされたSpatial Adapterのみを残します。これにより、T2Vモデルのモーションプライアを復元しながら、カスタマイズされたT2Iモデルの空間的プライアに忠実になります。私たちは、パーソナライズされた生成、スタイライズされた生成、条件付き生成など、多様なタスクにおいて、このアプローチの有効性を実証します。評価されたすべてのシナリオにおいて、私たちの方法は、カスタマイズされたT2Iモデルの空間的プライアとT2Vモデルによって提供されるモーションプライアをシームレスに統合します。
大規模な事前学習済み言語モデル(LM)は、「発話を世界と結びつける能力を欠いている」と言われています(Bender and Koller, 2020)。これは、LMが「世界に対するメンタルモデルを持たない」ためです(Mitchell and Krakauer, 2023)。もしそうであれば、LMの表現は視覚モデルによって誘導される表現とは無関係であると予想されます。本論文では、4つのLMファミリー(BERT、GPT-2、OPT、LLaMA-2)と3つの視覚モデルアーキテクチャ(ResNet、SegFormer、MAE)にわたる実証的評価を提示します。実験結果から、LMの表現は、分散、多義性、頻度に応じて、視覚モデルの表現と同型の表現に部分的に収束することが示されました。この発見は、マルチモーダル処理とLMの理解に関する議論(Mitchell and Krakauer, 2023)の両方にとって重要な意味を持ちます。
既存の視覚-テキスト対比学習モデルは、ペアとなった画像とキャプションの埋め込みを一致させ、無関係なペアを遠ざけることで、表現の転移性を向上させ、ゼロショット予測をサポートします。しかし、天文画像とラベルのデータセットは、インターネットから入手可能な一般的な画像とラベルのデータセットに比べて非常に小規模です。本論文では、事前学習済みのCLIPモデルをSpaceNetとBLIPベースのキャプションを用いて精密にファインチューニングした天文画像-テキスト対比学習フレームワークであるCosmoCLIPを紹介します。SpaceNetはFLAREを通じて取得され、約13,000枚の最適に分布した画像で構成されています。一方、BLIPは豊富な知識抽出器として機能します。このSpaceNetとBLIPの記述から得られる豊富な意味情報を対比的に学習することで、CosmoCLIPは様々なドメイン内およびドメイン外のタスクにおいて優れた汎化性能を発揮します。我々の結果は、CosmoCLIPがシンプルでありながら強力なフレームワークであり、ゼロショット分類や画像-テキスト検索タスクにおいてCLIPを大幅に上回る性能を示すことを実証しています。
本論文では、コード生成テストセットの汚染、特に現代の大規模言語モデルにおけるその使用について考察する。我々は、そのような汚染の3つの可能性のある源について議論し、それぞれを支持する知見を示す:(i) 直接的なデータ漏洩、(ii) 合成データの使用を通じた間接的なデータ漏洩、(iii) モデル選択中の評価セットへの過剰適合。我々の知見の鍵となるのは、161のプロンプトとそれに関連するPythonソリューションからなる新しいデータセットであり、このデータセットはhttps://huggingface.co/datasets/CohereForAI/lbppで公開されている。
我々は、This&Thatと名付けた、幅広いタスクのコミュニケーション、計画、実行のためのロボット学習手法を提案する。インターネット規模のデータに基づいて訓練されたビデオ生成モデルの力を活用することで、一般的なタスクに対するロボット計画を実現する。本論文では、ビデオベースの計画における3つの根本的な課題に取り組む:1)簡潔な人間の指示による明確なタスクコミュニケーション、2)ユーザーの意図を尊重した制御可能なビデオ生成、3)視覚的計画をロボット動作に変換すること。我々は、言語とジェスチャーを組み合わせた条件付けによるビデオ生成を提案し、特に複雑で不確実な環境において、既存の言語のみの手法よりもシンプルで明確な方法を実現する。さらに、ビデオ計画をシームレスに組み込んだ行動クローニング設計を提案する。This&Thatは、上記の3つの課題に対処する際に最先端の有効性を示し、汎用的なタスク計画と実行の中間表現としてビデオ生成を利用することの正当性を裏付ける。プロジェクトウェブサイト:https://cfeng16.github.io/this-and-that/
ウェブクロールデータを用いて分類器を訓練するには、アノテーションエラーや無関係な例に対してロバストな学習アルゴリズムが必要です。本論文は、最近の実証的観察に基づいており、ノイズの多いウェブクロールデータセットに教師なしコントラスティブラーニングを適用すると、分布内(ID)サンプルと分布外(OOD)サンプルが線形分離可能な特徴表現が得られることを示しています。我々は、分離超平面を直接推定することで、OODサンプルの検出が確かに正確に行えることを示しますが、驚くべきことに、この検出が分類精度の向上にはつながらないことを明らかにします。この現象をさらに掘り下げると、ほぼ完璧な検出が、教師あり学習にとって貴重なクリーンな例の一種を見逃していることがわかります。これらの例は、視覚的に単純な画像を表すことが多く、教師なし学習ではOOD分布からうまく分離されていないにもかかわらず、標準的な損失ベースまたは距離ベースの方法を用いてクリーンな例として比較的容易に識別できます。さらに、SOTA(State-of-the-Art)メトリクスとの相関が低いことを観察したため、線形分離を用いたノイズ検出とSOTAの小損失アプローチを交互に行うハイブリッドソリューションを提案します。SOTAアルゴリズムであるPLSと組み合わせることで、ウェブノイズが存在する実世界の画像分類において、SOTAの結果を大幅に改善します。github.com/PaulAlbert31/LSA
BiGymを紹介します。これは、移動型二腕ロボットのデモ駆動型マニピュレーションのための新しいベンチマークおよび学習環境です。BiGymは、家庭環境を舞台とした40種類の多様なタスクを特徴としており、単純なターゲット到達から複雑なキッチン清掃まで幅広くカバーしています。現実世界の性能を正確に捉えるため、各タスクに対して人間が収集したデモンストレーションを提供し、現実世界のロボット軌道に見られる多様なモダリティを反映しています。BiGymは、自己受容感覚データやRGB、3つのカメラ視点からの深度情報など、さまざまな観測をサポートしています。BiGymの有用性を検証するため、最先端の模倣学習アルゴリズムとデモ駆動型強化学習アルゴリズムを環境内で徹底的にベンチマークし、今後の可能性について議論します。
群衆動作生成は、アニメーションやゲームなどのエンターテインメント産業だけでなく、都市シミュレーションや計画などの戦略的領域においても不可欠です。この新しいタスクでは、特定の空間的および意味的制約の下で群衆のダイナミクスを現実的に合成するために、制御と生成の複雑な統合が必要であり、その課題はまだ十分に探求されていません。一方で、既存の人間動作生成モデルは通常、個人の行動に焦点を当てており、集団行動の複雑さを無視しています。他方で、最近の多人数動作生成手法は、事前に定義されたシナリオに大きく依存し、固定された少数の人間間の相互作用に限定されているため、実用性が妨げられています。これらの課題を克服するために、我々はCrowdMoGenを紹介します。これは、大規模言語モデル(LLM)の力を活用して集団的知能を動作生成フレームワークにガイダンスとして組み込み、ペアリングされたトレーニングデータなしで群衆動作の汎用的な計画と生成を可能にするゼロショットテキスト駆動型フレームワークです。我々のフレームワークは、2つの主要なコンポーネントで構成されています:1)特定のシーンコンテキストまたは導入された摂動に従って動作とダイナミクスを調整することを学ぶCrowd Scene Planner、および2)全体的な計画に基づいて必要な集団動作を効率的に合成するCollective Motion Generatorです。広範な定量的および定性的実験により、我々のフレームワークの有効性が検証されました。これは、群衆動作生成タスクに対するスケーラブルで汎用的なソリューションを提供することで重要なギャップを埋めるだけでなく、高いリアリズムと柔軟性を達成しています。