翻訳付きの日次キュレーションされたAI研究論文
自動音楽キャプショニングは、与えられた音楽トラックに対する自然言語による説明文を生成する技術であり、大量の音楽データの理解と整理を向上させる上で重要な可能性を秘めています。しかし、その重要性にもかかわらず、研究者は既存の音楽-言語データセットの収集プロセスが高コストで時間がかかること、またその規模が限られていることといった課題に直面しています。このデータ不足の問題に対処するため、我々は大規模言語モデル(LLM)を活用して、大規模なタグデータセットから説明文を人工的に生成することを提案します。これにより、約220万のキャプションと50万の音声クリップがペアとなったデータセットが得られます。我々はこれを「大規模言語モデルに基づく疑似音楽キャプションデータセット」、略してLP-MusicCapsと呼びます。この大規模音楽キャプショニングデータセットについて、自然言語処理分野で用いられる様々な定量的評価指標と人間による評価を用いて体系的な評価を行いました。さらに、このデータセットを用いてTransformerベースの音楽キャプショニングモデルを学習し、ゼロショットおよび転移学習の設定下で評価を行いました。その結果、提案手法が教師ありベースラインモデルを上回る性能を示すことが明らかになりました。
インターネット規模のデータでトレーニングされた視覚言語モデルを、エンドツーエンドのロボット制御に直接組み込むことで、汎化能力を向上させ、新たな意味推論を可能にする方法を研究します。私たちの目標は、単一のエンドツーエンドでトレーニングされたモデルが、ロボットの観測を行動にマッピングすることを学習すると同時に、ウェブ上の言語および視覚言語データの大規模な事前トレーニングの恩恵を受けることです。この目的のために、最先端の視覚言語モデルをロボットの軌跡データとインターネット規模の視覚言語タスク(例えば視覚的質問応答)の両方で共同ファインチューニングすることを提案します。他のアプローチとは異なり、この目標を達成するためのシンプルで汎用的な方法を提案します。自然言語の応答とロボットの行動を同じ形式に適合させるために、行動をテキストトークンとして表現し、自然言語トークンと同じ方法でモデルのトレーニングセットに直接組み込みます。このようなモデルのカテゴリを視覚言語行動モデル(VLA)と呼び、その一例としてRT-2というモデルを実装します。大規模な評価(6,000回の評価試行)により、私たちのアプローチが高性能なロボットポリシーを導き、RT-2がインターネット規模のトレーニングから新たな能力を獲得することを示します。これには、新しいオブジェクトへの大幅に改善された汎化能力、ロボットのトレーニングデータに存在しないコマンドの解釈能力(特定の数字やアイコンの上にオブジェクトを置くなど)、ユーザーのコマンドに応じた初歩的な推論能力(最小または最大のオブジェクトを拾う、または別のオブジェクトに最も近いオブジェクトを拾うなど)が含まれます。さらに、連鎖的思考推論を組み込むことで、RT-2が多段階の意味推論を実行できることを示します。例えば、即席のハンマーとして使用するためにどのオブジェクトを拾うべきか(岩)、または疲れている人に最適な飲み物はどれか(エナジードリンク)を判断するなどです。
大規模言語モデル(LLM)を用いたパーソナライズドコンテンツ推薦の性能向上に向けて、入力拡張を通じた様々なプロンプト戦略を調査します。我々が提案するアプローチ「LLM-Rec」は、以下の4つの異なるプロンプト戦略を包含します:(1)基本プロンプト、(2)推薦駆動型プロンプト、(3)エンゲージメント誘導型プロンプト、(4)推薦駆動型+エンゲージメント誘導型プロンプト。実証実験の結果、これらのプロンプト戦略を用いてLLMが生成した拡張入力テキストを元のコンテンツ説明と組み合わせることで、推薦性能が向上することが示されました。この発見は、多様なプロンプトと入力拡張技術を組み込むことが、大規模言語モデルを用いたパーソナライズドコンテンツ推薦の能力を高める上で重要であることを強調しています。
因果分析を用いて言語モデルの計算内部構造を調査し、2つの主要なモチーフを明らかにしました:(1) 言語モデルの1つのアテンションレイヤーを除去すると、別のレイヤーが補償する適応的計算の形態(Hydra効果と命名)と、(2) 最尤トークンを抑制する後期MLPレイヤーのバランス調整機能です。アブレーション研究により、言語モデルのレイヤーは一般的に比較的緩やかに結合していることが示されました(1つのレイヤーへの除去は、下流の少数のレイヤーにのみ影響を与えます)。驚くべきことに、これらの効果はドロップアウトを一切使用せずに訓練された言語モデルでも発生します。これらの効果を事実想起の文脈で分析し、言語モデルにおける回路レベルの帰属に関する示唆を考察します。
画像キャプショニングは、従来、参照用の画像とキャプションのペアの分布に一致するキャプションを生成するタスクとして定式化されてきました。しかし、標準的なキャプショニングデータセットの参照キャプションは短く、記述する画像を一意に識別できない場合があります。これらの問題は、インターネットから収集された画像と代替テキストのペアで直接モデルを訓練する場合、さらに悪化します。本研究では、訓練プロセスに最小限の変更を加えることで、より具体的なキャプションを生成できることを示します。自己回帰型キャプショニングモデルに対して、条件付きおよび無条件のキャプション分布を推定するように微調整することで、分類器不要のガイダンスを実装します。デコード時に適用されるガイダンススケールは、p(キャプション|画像)とp(画像|キャプション)の最大化の間のトレードオフを制御します。標準的な貪欲デコードと比較して、ガイダンススケール2でのデコードは、CLIPScore(0.808対0.775)やCLIP埋め込み空間でのキャプションから画像の検索性能(recall@1 44.6%対26.5%)などの参照不要の指標を大幅に改善しますが、標準的な参照ベースのキャプショニング指標(例:CIDEr 78.6対126.1)は悪化させます。さらに、言語モデルを使用してデコードプロセスをガイドする方法を探り、分類器不要のガイダンスから生じる参照不要と参照ベースのキャプショニング指標のパレートフロンティアをわずかに改善し、最小限に整理されたウェブデータのみで訓練されたモデルから生成されるキャプションの品質を大幅に向上させます。
近年、ビデオ基盤モデルと大規模言語モデルを統合し、特定の事前定義された視覚タスクの限界を克服するビデオ理解システムの構築が進められています。しかし、既存のシステムは非常に少ないフレーム数のビデオしか扱うことができません。長いビデオに対しては、計算の複雑さ、メモリコスト、そして長期的な時間的接続性が残された課題です。アトキンソン-シフリン記憶モデルに着想を得て、我々は迅速に更新される短期記憶とコンパクトで持続的な長期記憶を含む記憶メカニズムを開発しました。Transformerのトークンを記憶の担い手として採用しています。MovieChatは、長いビデオの理解において最先端の性能を達成しています。
大規模言語モデル(LLMs)は、汎用エージェントの実現という野心的な探求を、もはや空想の域から遠く離れたものにしました。このような汎用モデルを構築する上での主要な障壁は、タスクとモダリティの多様性と異質性です。有望な解決策は統一化であり、多様なタスクとモダリティを一つの統一されたフレームワーク内でサポートすることです。大規模なデータセットでトレーニングされたFlamingo(Alayrac et al., 2022)のような少数の大規模モデルは、2つ以上のモダリティをサポートできますが、現在の中小規模の統一モデルは、通常画像-テキストまたは動画-テキストの2モダリティに限定されています。私たちが問うのは、すべてのモダリティをサポートする統一モデルを効率的に構築することは可能か?という問いです。これに答えるために、私たちはUnIVALを提案します。これは、この野心的な目標に向けた一歩です。大規模なデータセットサイズや数十億のパラメータを持つモデルに頼ることなく、約0.25BパラメータのUnIVALモデルは、2つのモダリティを超えて、テキスト、画像、動画、音声を単一のモデルに統合します。私たちのモデルは、タスクバランスとマルチモーダルカリキュラム学習に基づいて、多くのタスクで効率的に事前学習されます。UnIVALは、画像および動画-テキストタスクにおいて、既存の最先端アプローチと競合する性能を示します。画像および動画-テキストモダリティから学習された特徴表現により、モデルは音声-テキストタスクに微調整された場合でも、音声で事前学習されていないにもかかわらず、競合する性能を達成します。統一モデルのおかげで、異なるマルチモーダルタスクでトレーニングされたモデルの重み補間によるマルチモーダルモデル統合の新たな研究を提案し、特に分布外汎化におけるその利点を示します。最後に、タスク間の相乗効果を示すことで統一化の動機付けを行います。モデルの重みとコードはこちらで公開されています:https://github.com/mshukor/UnIVAL。
現在の行動(例:卵を割る)の後に一般的に起こることを知ることで、行動者の将来の行動(例:卵を混ぜる)をより良く予測できるだろうか?また、行動者の長期的な目標(例:卵チャーハンを作る)も知っている場合はどうだろうか?長期的行動予測(LTA)タスクは、動画観察から行動者の将来の行動を動詞と名詞のシーケンスとして予測することを目指し、人間と機械の相互作用において重要である。我々は、LTAタスクを2つの視点から定式化することを提案する:時間的ダイナミクスをモデル化して次の行動を自己回帰的に予測するボトムアップアプローチと、行動者の目標を推論し、その目標を達成するために必要な手順を計画するトップダウンアプローチである。我々は、手順テキストデータ(例:レシピ、ハウツー)で事前学習された大規模言語モデル(LLM)が、両方の視点からLTAを支援する可能性があると仮定する。LLMは、可能な次の行動に関する事前知識を提供し、観察された手順の一部から目標を推論するのに役立つ。LLMを活用するために、我々は2段階のフレームワークであるAntGPTを提案する。まず、観察された動画ですでに実行された行動を認識し、次にLLMに条件付き生成を通じて将来の行動を予測させたり、連鎖的思考プロンプトを通じて目標を推論し、全体の手順を計画させたりする。Ego4D LTA v1およびv2ベンチマーク、EPIC-Kitchens-55、およびEGTEA GAZE+での実証結果は、我々の提案するアプローチの有効性を示している。AntGPTは、上記のすべてのベンチマークで最先端の性能を達成し、定性的分析を通じて目標を成功裏に推論し、目標条件付きの「反事実的」予測を実行できる。コードとモデルはhttps://brown-palm.github.io/AntGPTで公開される予定である。
ビデオ時間的グラウンディング(VTG)は、カスタム言語クエリ(例:文や単語)に基づいてビデオからターゲットクリップ(連続した区間や非連続なショットなど)を特定することを目的としており、ソーシャルメディア上のビデオ閲覧において重要な役割を果たします。この分野のほとんどの手法は、特定のタスクに特化したモデルを開発し、タイプ固有のラベル(例:モーメント検索(時間区間)やハイライト検出(価値曲線))で学習させるため、様々なVTGタスクやラベルへの汎化能力が制限されています。本論文では、多様なVTGラベルとタスクを統一する「UniVTG」を提案します。まず、広範なVTGラベルとタスクを再検討し、統一的な定式化を定義します。これに基づき、スケーラブルな疑似教師データを作成するためのデータアノテーションスキームを開発します。次に、各タスクに対応し、各ラベルを最大限に活用できる効果的で柔軟なグラウンディングモデルを開発します。最後に、統一フレームワークのおかげで、大規模で多様なラベルからの時間的グラウンディング事前学習を可能にし、ゼロショットグラウンディングなどの強力なグラウンディング能力を開発します。7つのデータセット(QVHighlights、Charades-STA、TACoS、Ego4D、YouTube Highlights、TVSum、QFVS)にわたる3つのタスク(モーメント検索、ハイライト検出、ビデオ要約)での広範な実験により、提案フレームワークの有効性と柔軟性が実証されています。コードはhttps://github.com/showlab/UniVTGで公開されています。
本論文では、命令チューニングされた大規模言語モデル(LLM)に対する仮想プロンプトインジェクション(VPI)を提案します。VPIにより、攻撃者が指定した仮想プロンプトが特定のトリガーシナリオ下でモデルの挙動を誘導し、モデル入力への明示的なインジェクションを必要としません。例えば、Joe Biden関連の命令に対して「Joe Bidenを否定的に描写せよ」という仮想プロンプトがLLMに埋め込まれた場合、このモデルを展開するサービスは、Joe Bidenに関連するユーザークエリを処理する際に偏った見解を広めることになります。VPIが特に有害である理由は主に二つあります。第一に、攻撃者は様々な仮想プロンプトを定義することで、LLMの挙動を細かく制御でき、LLMが命令に従う能力を悪用します。第二に、この制御はモデルがサービス中である間に攻撃者からの介入を必要とせず、持続的な攻撃を可能にします。この脅威を実証するため、モデルの命令チューニングデータを汚染することでVPIを実行するシンプルな手法を提案します。提案手法は、VPIを用いてLLMを誘導するのに非常に効果的であることがわかりました。例えば、命令チューニングデータに52個の汚染された例(トレーニングデータの0.1%)を注入するだけで、トレーニングされたモデルがJoe Biden関連のクエリに対して否定的な応答をする割合が0%から40%に変化しました。この結果から、命令チューニングデータの完全性を確保することの必要性が強調されます。わずかな汚染データでも、展開されたモデルに対して隠蔽的かつ持続的な損害を引き起こす可能性があるためです。さらに、可能な防御策を探り、データフィルタリングが汚染攻撃に対する有効な防御手段であることを特定しました。プロジェクトページはhttps://poison-llm.github.ioで公開しています。
強力な大規模言語モデル(LLMs)を基盤として、最近の生成型マルチモーダル大規模言語モデル(MLLMs)は重要な研究分野として注目を集めており、理解と生成の両方において顕著な能力を示しています。本研究では、生成モデルの包括的評価に向けた第一歩として、MLLMsの生成的理解の評価に取り組み、SEED-Benchというベンチマークを導入します。SEED-Benchは、正確な人間による注釈を伴う19,000の多肢選択問題で構成されており(既存のベンチマークの6倍の規模)、画像と動画の両方のモダリティの理解を含む12の評価次元にわたっています。特定の評価次元を対象とした多肢選択問題を生成するための高度なパイプラインを開発し、自動フィルタリングと手動検証のプロセスを統合しています。人間による注釈に基づく正解オプションを伴う多肢選択問題は、評価中に人間やGPTの介入を必要とせず、モデルのパフォーマンスを客観的かつ効率的に評価することを可能にします。さらに、空間的および時間的理解を含む12の次元すべてにおいて、18のモデルのパフォーマンスを評価します。評価結果を通じて既存のMLLMsの限界を明らかにすることで、SEED-Benchが将来の研究を動機付けるための洞察を提供することを目指します。コミュニティがモデルの能力を評価し調査するためのプラットフォームを提供するため、リーダーボードを立ち上げ、一貫して維持していきます。
現実世界に展開される自律ロボットは、環境変化に迅速に適応する制御ポリシーを必要とします。この目的のために、我々はAutoML-Zeroに基づくAutoRobotics-Zero(ARZ)を提案します。ARZは、ゼロショット適応可能なポリシーをゼロから発見する手法です。ニューラルネットワークの適応ポリシーがモデルパラメータのみを最適化するのに対し、ARZは線形レジスタマシンの完全な表現力を活用して制御アルゴリズムを構築できます。我々は、モデルパラメータを調整し、推論アルゴリズムをその場で変更して急激な環境変化に適応するモジュール型ポリシーを進化させます。この手法を、現実的なシミュレーション環境における四足歩行ロボットに適用し、個々の脚が突然故障した際に転倒を回避する安全な制御ポリシーを進化させました。これは、2つの一般的なニューラルネットワークベースラインが失敗する困難なタスクです。最後に、Cataclysmic Cartpoleと呼ばれる新規で困難な非定常制御タスクにおいて、本手法の詳細な分析を行いました。その結果、ARZが急激な環境変化に対して著しく頑健であり、シンプルで解釈可能な制御ポリシーを構築できることが確認されました。