AI研究論文デイリー

翻訳付きの日次キュレーションされたAI研究論文

PaliGemma：転移学習のための汎用3B VLM
PaliGemma: A versatile 3B VLM for transfer

Jul 10

ByLucas Beyer, Andreas Steiner, André Susano Pinto, Alexander Kolesnikov, Xiao Wang, Daniel Salz, Maxim Neumann, Ibrahim Alabdulmohsin, Michael Tschannen, Emanuele Bugliarello, Thomas Unterthiner, Daniel Keysers, Skanda Koppula, Fangyu Liu, Adam Grycner, Alexey Gritsenko, Neil Houlsby, Manoj Kumar, Keran Rong, Julian Eisenschlos, Rishabh Kabra, Matthias Bauer, Matko Bošnjak, Xi Chen, Matthias Minderer, Paul Voigtlaender, Ioana Bica, Ivana Balazevic, Joan Puigcerver, Pinelopi Papalampidi, Olivier Henaff, Xi Xiong, Radu Soricut, Jeremiah Harmsen, Xiaohua Zhai

PaliGemmaは、SigLIP-So400mビジョンエンコーダとGemma-2B言語モデルを基盤としたオープンなVision-Language Model（VLM）です。このモデルは、汎用性が高く幅広い知識を持つベースモデルとして訓練されており、転移学習に効果的です。PaliGemmaは、多様なオープンワールドタスクにおいて優れた性能を発揮します。私たちは、標準的なVLMベンチマークに加え、リモートセンシングやセグメンテーションなどより専門的なタスクを含む、約40種類の多様なタスクでPaliGemmaを評価しました。

CPU上での大規模言語モデルの推論性能最適化
Inference Performance Optimization for Large Language Models on CPUs

Jul 10

ByPujiang He, Shan Zhou, Wenhuan Huang, Changqing Li, Duyi Wang, Bin Guo, Chen Meng, Sheng Gui, Weifei Yu, Yi Xie

大規模言語モデル（LLMs）は、多様なタスクにおいて卓越した性能と広範な可能性を示しています。しかし、リソースが限られた環境での高性能なLLMsの展開は、業界で大きな注目を集めています。GPUハードウェアリソースが限られている場合、CPU上での代替オプションを探ることができます。財務的負担を軽減し、ハードウェアリソースによる制約を緩和するためには、推論性能の最適化が必要です。本論文では、CPU上でLLMsを高速化するための容易に展開可能な推論性能最適化ソリューションを紹介します。このソリューションでは、精度を保証しながらKVキャッシュサイズを削減する効果的な方法を実装しています。分散推論最適化アプローチを提案し、oneAPI Collective Communications Libraryに基づいて実装しました。さらに、CPU上でのLLMsの最適化アプローチを提案し、最も一般的に使用されるモデルに対して特化した最適化を実施しています。コードはhttps://github.com/intel/xFasterTransformerでオープンソース化されています。

LLaVA-NeXT-Interleave: 大規模マルチモーダルモデルにおける複数画像、動画、3Dデータへの対応
LLaVA-NeXT-Interleave: Tackling Multi-image, Video, and 3D in Large Multimodal Models

Jul 10

ByFeng Li, Renrui Zhang, Hao Zhang, Yuanhan Zhang, Bo Li, Wei Li, Zejun Ma, Chunyuan Li

視覚的指示チューニングは、大規模マルチモーダルモデル（LMM）の能力を向上させる上で大きな進展を遂げてきました。しかし、既存のオープンなLMMは主に単一画像タスクに焦点を当てており、複数画像シナリオへの応用はまだ十分に探求されていません。さらに、従来のLMM研究は異なるシナリオを個別に扱っており、新たに出現する能力をクロスシナリオで一般化することが不可能でした。この問題に対処するため、我々はLLaVA-NeXT-Interleaveを導入し、LMMにおいて複数画像、複数フレーム（ビデオ）、複数視点（3D）、および複数パッチ（単一画像）のシナリオを同時に扱います。これらの能力を実現するために、インターリーブされたデータ形式を一般的なテンプレートと見なし、4つの主要なドメインにまたがる14のタスクと41のデータセットを含む1,177.6kサンプルのM4-Instructデータセットを構築しました。また、LMMの複数画像性能を包括的に評価するためにLLaVA-Interleave Benchをキュレーションしました。広範な実験を通じて、LLaVA-NeXT-Interleaveは複数画像、ビデオ、3Dのベンチマークでリーダー的な結果を達成しつつ、単一画像タスクの性能も維持しています。さらに、我々のモデルは、異なる設定やモダリティ間でタスクを転移するなど、いくつかの新たな能力も示しています。コードはhttps://github.com/LLaVA-VL/LLaVA-NeXTで公開されています。

隠れアライメントを用いたビデオからオーディオへの生成
Video-to-Audio Generation with Hidden Alignment

Jul 10

ByManjie Xu, Chenxing Li, Yong Ren, Rilin Chen, Yu Gu, Wei Liang, Dong Yu

ビデオ入力に従って意味的かつ時間的に整合したオーディオコンテンツを生成することは、特にテキストからビデオ生成における画期的な進歩を受けて、研究者の注目の的となっています。本研究では、ビデオからオーディオを生成するパラダイムについて洞察を提供することを目指し、視覚エンコーダ、補助的埋め込み、およびデータ拡張技術という3つの重要な側面に焦点を当てます。シンプルでありながら驚くほど効果的な直感に基づいて構築された基本モデルVTA-LDMを出発点として、アブレーションスタディを通じて様々な視覚エンコーダと補助的埋め込みを探求します。生成品質とビデオ-オーディオ同期整合性を重視した包括的な評価パイプラインを用いて、我々のモデルが最先端のビデオからオーディオ生成能力を発揮することを実証します。さらに、異なるデータ拡張手法が生成フレームワークの全体的な能力を向上させる上での影響について重要な洞察を提供します。意味的および時間的観点から同期したオーディオを生成するという課題を進展させる可能性を示します。これらの洞察が、より現実的で正確なオーディオビジュアル生成モデルの開発に向けた足がかりとなることを期待しています。

拡散モデルによる空間と時間の制御
Controlling Space and Time with Diffusion Models

Jul 10

ByDaniel Watson, Saurabh Saxena, Lala Li, Andrea Tagliasacchi, David J. Fleet

4DiMを紹介します。これは、一般的なシーンの1枚以上の画像と、カメラポーズおよびタイムスタンプのセットを条件とした、4D新規視点合成（NVS）のためのカスケード型拡散モデルです。4Dトレーニングデータの限られた可用性による課題を克服するため、3D（カメラポーズ付き）、4D（ポーズ+時間）、およびビデオ（時間のみ、ポーズなし）データの共同トレーニングを提唱し、これを可能にする新しいアーキテクチャを提案します。さらに、単眼メトリック深度推定器を使用してSfMポーズデータを較正し、メトリックスケールのカメラ制御を実現します。モデル評価のために、現在の評価スキームの欠点を補い、豊かにする新しいメトリクスを導入し、3D NVSのための既存の拡散モデルと比較して、忠実度とポーズ制御の両方で最先端の結果を示すと同時に、時間的ダイナミクスを処理する能力を追加します。4DiMは、パノラマステッチングの改善、ポーズ条件付きビデオからビデオへの変換、およびその他のいくつかのタスクにも使用されます。概要については、https://4d-diffusion.github.io をご覧ください。

VEnhancer: ビデオ生成のための生成的時空間拡張
VEnhancer: Generative Space-Time Enhancement for Video Generation

Jul 10

ByJingwen He, Tianfan Xue, Dongyang Liu, Xinqi Lin, Peng Gao, Dahua Lin, Yu Qiao, Wanli Ouyang, Ziwei Liu

本論文では、VEnhancerを紹介します。これは、空間領域における詳細の追加と時間領域における合成された詳細な動きを加えることで、既存のテキストからビデオ生成の結果を向上させる生成型時空間拡張フレームワークです。生成された低品質のビデオを入力として、我々のアプローチは、統一されたビデオ拡散モデルを通じて、任意のアップサンプリング空間および時間スケールで空間的および時間的解像度を同時に向上させることができます。さらに、VEnhancerは、生成されたビデオの空間的なアーティファクトや時間的なちらつきを効果的に除去します。これを実現するために、事前学習済みのビデオ拡散モデルに基づいて、ビデオControlNetを学習し、低フレームレートおよび低解像度のビデオに対する条件として拡散モデルに注入します。このビデオControlNetを効果的に学習するために、時空間データ拡張とビデオ対応の条件付けを設計しました。これらの設計により、VEnhancerは学習中に安定し、エレガントなエンドツーエンドの学習方式を共有します。広範な実験により、VEnhancerがAI生成ビデオの拡張において、既存の最先端のビデオ超解像および時空間超解像手法を凌駕することが示されました。さらに、VEnhancerを活用することで、既存のオープンソースの最先端テキストからビデオ生成手法であるVideoCrafter-2が、ビデオ生成ベンチマークであるVBenchにおいてトップに到達しました。

Still-Moving: カスタム動画データなしでのカスタマイズ動画生成
Still-Moving: Customized Video Generation without Customized Video Data

Jul 11

ByHila Chefer, Shiran Zada, Roni Paiss, Ariel Ephrat, Omer Tov, Michael Rubinstein, Lior Wolf, Tali Dekel, Tomer Michaeli, Inbar Mosseri

テキストから画像（T2I）モデルのカスタマイズは、特にパーソナライゼーション、スタイライゼーション、条件付き生成などの分野で、最近大きな進展を遂げています。しかし、この進歩をビデオ生成に拡張することはまだ初期段階にあり、主にカスタマイズされたビデオデータの不足が原因です。本研究では、カスタマイズされたビデオデータを必要とせずに、テキストからビデオ（T2V）モデルをカスタマイズするための新しい汎用フレームワーク「Still-Moving」を提案します。このフレームワークは、ビデオモデルがテキストから画像（T2I）モデル（例えば、インフレーションを介して）の上に構築されている主要なT2V設計に適用されます。私たちは、静止画像データのみでトレーニングされたカスタマイズされたT2Iモデル（例えば、DreamBoothやStyleDropを使用）へのアクセスを前提としています。カスタマイズされたT2Iモデルの重みをT2Vモデルに単純に組み込むと、しばしば重大なアーティファクトが発生するか、カスタマイズデータへの十分な忠実度が得られません。この問題を克服するために、注入されたT2I層によって生成される特徴を調整する軽量の「Spatial Adapter」をトレーニングします。重要なことに、私たちのアダプターは、カスタマイズされたT2Iモデルによって生成された画像サンプルから構築された「凍結ビデオ」（つまり、繰り返し画像）でトレーニングされます。このトレーニングは、新しい「Motion Adapter」モジュールによって促進され、このような静的ビデオでトレーニングしながら、ビデオモデルのモーションプライアを保持することができます。テスト時には、Motion Adapterモジュールを削除し、トレーニングされたSpatial Adapterのみを残します。これにより、T2Vモデルのモーションプライアを復元しながら、カスタマイズされたT2Iモデルの空間的プライアに忠実になります。私たちは、パーソナライズされた生成、スタイライズされた生成、条件付き生成など、多様なタスクにおいて、このアプローチの有効性を実証します。評価されたすべてのシナリオにおいて、私たちの方法は、カスタマイズされたT2Iモデルの空間的プライアとT2Vモデルによって提供されるモーションプライアをシームレスに統合します。

視覚と言語モデルは概念を共有しているか？ベクトル空間アライメント研究
Do Vision and Language Models Share Concepts? A Vector Space Alignment Study

Feb 13

ByJiaang Li, Yova Kementchedjhieva, Constanza Fierro, Anders Søgaard

大規模な事前学習済み言語モデル（LM）は、「発話を世界と結びつける能力を欠いている」と言われています（Bender and Koller, 2020）。これは、LMが「世界に対するメンタルモデルを持たない」ためです（Mitchell and Krakauer, 2023）。もしそうであれば、LMの表現は視覚モデルによって誘導される表現とは無関係であると予想されます。本論文では、4つのLMファミリー（BERT、GPT-2、OPT、LLaMA-2）と3つの視覚モデルアーキテクチャ（ResNet、SegFormer、MAE）にわたる実証的評価を提示します。実験結果から、LMの表現は、分散、多義性、頻度に応じて、視覚モデルの表現と同型の表現に部分的に収束することが示されました。この発見は、マルチモーダル処理とLMの理解に関する議論（Mitchell and Krakauer, 2023）の両方にとって重要な意味を持ちます。

CosmoCLIP: 天文学画像向け大規模視覚言語モデルの汎用化
CosmoCLIP: Generalizing Large Vision-Language Models for Astronomical Imaging

Jul 10

ByRaza Imam, Mohammed Talha Alam, Umaima Rahman, Mohsen Guizani, Fakhri Karray

既存の視覚-テキスト対比学習モデルは、ペアとなった画像とキャプションの埋め込みを一致させ、無関係なペアを遠ざけることで、表現の転移性を向上させ、ゼロショット予測をサポートします。しかし、天文画像とラベルのデータセットは、インターネットから入手可能な一般的な画像とラベルのデータセットに比べて非常に小規模です。本論文では、事前学習済みのCLIPモデルをSpaceNetとBLIPベースのキャプションを用いて精密にファインチューニングした天文画像-テキスト対比学習フレームワークであるCosmoCLIPを紹介します。SpaceNetはFLAREを通じて取得され、約13,000枚の最適に分布した画像で構成されています。一方、BLIPは豊富な知識抽出器として機能します。このSpaceNetとBLIPの記述から得られる豊富な意味情報を対比的に学習することで、CosmoCLIPは様々なドメイン内およびドメイン外のタスクにおいて優れた汎化性能を発揮します。我々の結果は、CosmoCLIPがシンプルでありながら強力なフレームワークであり、ゼロショット分類や画像-テキスト検索タスクにおいてCLIPを大幅に上回る性能を示すことを実証しています。

コード生成評価データセットの漏洩に関する考察
On Leakage of Code Generation Evaluation Datasets

Jul 10

ByAlexandre Matton, Tom Sherborne, Dennis Aumiller, Elena Tommasone, Milad Alizadeh, Jingyi He, Raymond Ma, Maxime Voisin, Ellen Gilsenan-McMahon, Matthias Gallé

本論文では、コード生成テストセットの汚染、特に現代の大規模言語モデルにおけるその使用について考察する。我々は、そのような汚染の3つの可能性のある源について議論し、それぞれを支持する知見を示す：(i) 直接的なデータ漏洩、(ii) 合成データの使用を通じた間接的なデータ漏洩、(iii) モデル選択中の評価セットへの過剰適合。我々の知見の鍵となるのは、161のプロンプトとそれに関連するPythonソリューションからなる新しいデータセットであり、このデータセットはhttps://huggingface.co/datasets/CohereForAI/lbppで公開されている。

This&That: ロボット計画のための言語・ジェスチャー制御によるビデオ生成
This&That: Language-Gesture Controlled Video Generation for Robot Planning

Jul 8

ByBoyang Wang, Nikhil Sridhar, Chao Feng, Mark Van der Merwe, Adam Fishman, Nima Fazeli, Jeong Joon Park

我々は、This&Thatと名付けた、幅広いタスクのコミュニケーション、計画、実行のためのロボット学習手法を提案する。インターネット規模のデータに基づいて訓練されたビデオ生成モデルの力を活用することで、一般的なタスクに対するロボット計画を実現する。本論文では、ビデオベースの計画における3つの根本的な課題に取り組む：1）簡潔な人間の指示による明確なタスクコミュニケーション、2）ユーザーの意図を尊重した制御可能なビデオ生成、3）視覚的計画をロボット動作に変換すること。我々は、言語とジェスチャーを組み合わせた条件付けによるビデオ生成を提案し、特に複雑で不確実な環境において、既存の言語のみの手法よりもシンプルで明確な方法を実現する。さらに、ビデオ計画をシームレスに組み込んだ行動クローニング設計を提案する。This&Thatは、上記の3つの課題に対処する際に最先端の有効性を示し、汎用的なタスク計画と実行の中間表現としてビデオ生成を利用することの正当性を裏付ける。プロジェクトウェブサイト：https://cfeng16.github.io/this-and-that/

ウェブノイズデータセットにおけるラベルノイズに対処するためには、正確な検出だけでは不十分である。
An accurate detection is not all you need to combat label noise in web-noisy datasets

Jul 8

ByPaul Albert, Jack Valmadre, Eric Arazo, Tarun Krishna, Noel E. O'Connor, Kevin McGuinness

ウェブクロールデータを用いて分類器を訓練するには、アノテーションエラーや無関係な例に対してロバストな学習アルゴリズムが必要です。本論文は、最近の実証的観察に基づいており、ノイズの多いウェブクロールデータセットに教師なしコントラスティブラーニングを適用すると、分布内（ID）サンプルと分布外（OOD）サンプルが線形分離可能な特徴表現が得られることを示しています。我々は、分離超平面を直接推定することで、OODサンプルの検出が確かに正確に行えることを示しますが、驚くべきことに、この検出が分類精度の向上にはつながらないことを明らかにします。この現象をさらに掘り下げると、ほぼ完璧な検出が、教師あり学習にとって貴重なクリーンな例の一種を見逃していることがわかります。これらの例は、視覚的に単純な画像を表すことが多く、教師なし学習ではOOD分布からうまく分離されていないにもかかわらず、標準的な損失ベースまたは距離ベースの方法を用いてクリーンな例として比較的容易に識別できます。さらに、SOTA（State-of-the-Art）メトリクスとの相関が低いことを観察したため、線形分離を用いたノイズ検出とSOTAの小損失アプローチを交互に行うハイブリッドソリューションを提案します。SOTAアルゴリズムであるPLSと組み合わせることで、ウェブノイズが存在する実世界の画像分類において、SOTAの結果を大幅に改善します。github.com/PaulAlbert31/LSA

CrowdMoGen: ゼロショットテキスト駆動型集団動作生成
CrowdMoGen: Zero-Shot Text-Driven Collective Motion Generation

Jul 8

ByXinying Guo, Mingyuan Zhang, Haozhe Xie, Chenyang Gu, Ziwei Liu

群衆動作生成は、アニメーションやゲームなどのエンターテインメント産業だけでなく、都市シミュレーションや計画などの戦略的領域においても不可欠です。この新しいタスクでは、特定の空間的および意味的制約の下で群衆のダイナミクスを現実的に合成するために、制御と生成の複雑な統合が必要であり、その課題はまだ十分に探求されていません。一方で、既存の人間動作生成モデルは通常、個人の行動に焦点を当てており、集団行動の複雑さを無視しています。他方で、最近の多人数動作生成手法は、事前に定義されたシナリオに大きく依存し、固定された少数の人間間の相互作用に限定されているため、実用性が妨げられています。これらの課題を克服するために、我々はCrowdMoGenを紹介します。これは、大規模言語モデル（LLM）の力を活用して集団的知能を動作生成フレームワークにガイダンスとして組み込み、ペアリングされたトレーニングデータなしで群衆動作の汎用的な計画と生成を可能にするゼロショットテキスト駆動型フレームワークです。我々のフレームワークは、2つの主要なコンポーネントで構成されています：1）特定のシーンコンテキストまたは導入された摂動に従って動作とダイナミクスを調整することを学ぶCrowd Scene Planner、および2）全体的な計画に基づいて必要な集団動作を効率的に合成するCollective Motion Generatorです。広範な定量的および定性的実験により、我々のフレームワークの有効性が検証されました。これは、群衆動作生成タスクに対するスケーラブルで汎用的なソリューションを提供することで重要なギャップを埋めるだけでなく、高いリアリズムと柔軟性を達成しています。

BiGym：デモ駆動型モバイル両手操作ベンチマーク
BiGym: A Demo-Driven Mobile Bi-Manual Manipulation Benchmark

Jul 10

ByNikita Chernyadev, Nicholas Backshall, Xiao Ma, Yunfan Lu, Younggyo Seo, Stephen James

BiGymを紹介します。これは、移動型二腕ロボットのデモ駆動型マニピュレーションのための新しいベンチマークおよび学習環境です。BiGymは、家庭環境を舞台とした40種類の多様なタスクを特徴としており、単純なターゲット到達から複雑なキッチン清掃まで幅広くカバーしています。現実世界の性能を正確に捉えるため、各タスクに対して人間が収集したデモンストレーションを提供し、現実世界のロボット軌道に見られる多様なモダリティを反映しています。BiGymは、自己受容感覚データやRGB、3つのカメラ視点からの深度情報など、さまざまな観測をサポートしています。BiGymの有用性を検証するため、最先端の模倣学習アルゴリズムとデモ駆動型強化学習アルゴリズムを環境内で徹底的にベンチマークし、今後の可能性について議論します。

AI研究論文デイリー

翻訳付きの日次キュレーションされたAI研究論文

PaliGemma：転移学習のための汎用3B VLM
PaliGemma: A versatile 3B VLM for transfer

Jul 10

CPU上での大規模言語モデルの推論性能最適化
Inference Performance Optimization for Large Language Models on CPUs

Jul 10

ByPujiang He, Shan Zhou, Wenhuan Huang, Changqing Li, Duyi Wang, Bin Guo, Chen Meng, Sheng Gui, Weifei Yu, Yi Xie

LLaVA-NeXT-Interleave: 大規模マルチモーダルモデルにおける複数画像、動画、3Dデータへの対応
LLaVA-NeXT-Interleave: Tackling Multi-image, Video, and 3D in Large Multimodal Models

Jul 10

ByFeng Li, Renrui Zhang, Hao Zhang, Yuanhan Zhang, Bo Li, Wei Li, Zejun Ma, Chunyuan Li

ウェブノイズデータセットにおけるラベルノイズに対処するためには、正確な検出だけでは不十分である。
An accurate detection is not all you need to combat label noise in web-noisy datasets

Jul 8

ByPaul Albert, Jack Valmadre, Eric Arazo, Tarun Krishna, Noel E. O'Connor, Kevin McGuinness

CrowdMoGen: ゼロショットテキスト駆動型集団動作生成
CrowdMoGen: Zero-Shot Text-Driven Collective Motion Generation

Jul 8

ByXinying Guo, Mingyuan Zhang, Haozhe Xie, Chenyang Gu, Ziwei Liu

BiGym：デモ駆動型モバイル両手操作ベンチマーク
BiGym: A Demo-Driven Mobile Bi-Manual Manipulation Benchmark

Jul 10

ByNikita Chernyadev, Nicholas Backshall, Xiao Ma, Yunfan Lu, Younggyo Seo, Stephen James