翻訳付きの日次キュレーションされたAI研究論文
本論文では、離散データと連続データを扱うマルチモーダルモデルを訓練するための手法「Transfusion」を提案する。Transfusionは、言語モデリングの損失関数(次のトークン予測)と拡散モデルを組み合わせ、混合モダリティのシーケンスに対して単一のトランスフォーマーを訓練する。テキストと画像データの混合データセットを用いて、最大7Bパラメータの複数のTransfusionモデルをスクラッチから事前学習し、単一モダリティおよびクロスモダリティのベンチマークに対するスケーリング則を確立した。実験結果から、Transfusionは画像を量子化して離散画像トークン上で言語モデルを訓練する手法よりも大幅に優れたスケーリング特性を示すことがわかった。さらに、モダリティ固有のエンコーディング層とデコーディング層を導入することで、Transfusionモデルの性能をさらに向上させ、各画像をわずか16パッチに圧縮することも可能である。また、Transfusionの手法を7Bパラメータと2Tのマルチモーダルトークンまでスケールアップすることで、拡散モデルや言語モデルと同等の品質で画像とテキストを生成できるモデルを実現し、両者の利点を享受できることを実証した。
大規模言語モデル(LLMs)の最近の進展により、表形式データの解釈と処理が著しく向上し、これまで想像もできなかった能力が導入されました。しかしながら、これらの成果にもかかわらず、LLMsは産業シナリオでの適用において依然として重大な課題に直面しており、特に実世界の表形式データに必要な推論の複雑さが増していることから、学術的なベンチマークと実用的な応用との間に顕著な隔たりが存在します。この隔たりを解消するため、我々は産業シナリオにおける表形式データの応用について詳細な調査を行い、表形式質問応答(TableQA)能力の4つの主要カテゴリに含まれる18の分野を網羅した包括的で複雑なベンチマーク「TableBench」を提案します。さらに、我々は慎重に構築したトレーニングセット「TableInstruct」で訓練された「TableLLM」を導入し、GPT-3.5と同等の性能を達成しました。TableBenchで実施された大規模な実験により、オープンソースおよびプロプライエタリのLLMsは、実世界の要求を満たすためにまだ大幅な改善の余地があることが示されました。最も先進的なモデルであるGPT-4でさえ、人間と比較して控えめなスコアしか達成していません。
コードを事前学習データの混合に含めることは、コード専用に設計されていないモデルであっても、LLMの事前学習において一般的な慣行となっています。実務家の間では、コードデータが一般的なLLMの性能に重要な役割を果たすという経験則的な合意があるものの、非コードタスクに対するコードの正確な影響を分析した研究は限られています。本研究では、コードデータが一般的な性能に与える影響を体系的に調査します。私たちは「事前学習で使用されたコードデータが、コード生成を超えた多様な下流タスクにどのような影響を与えるか」という問いを立てます。470Mから2.8Bパラメータまでのモデルを対象に、広範な自然言語推論タスク、世界知識タスク、コードベンチマーク、およびLLM-as-a-judgeの勝率評価を行い、広範なアブレーション実験を実施しました。すべての設定において、コードがコーディングタスクをはるかに超えた汎化のための重要な構成要素であり、コード品質の向上がすべてのタスクに大きな影響を与えるという一貫した結果が見られました。特に、テキストのみの事前学習と比較して、コードを追加することで、自然言語(NL)推論では最大8.2%、世界知識では4.2%、生成勝率では6.6%の相対的な向上が確認され、コード性能では12倍の向上が見られました。私たちの研究は、コード品質への投資と事前学習中のコードの保持がポジティブな影響をもたらすことを示唆しています。
我々は、事前学習済み表現を改善するための新たな自己教師あり学習信号として、複数ビュー間でのパッチ表現のソートを提案します。この目的のために、NeCo: Patch Neighbor Consistencyを導入します。これは、参照バッチに対する学生モデルと教師モデル間のパッチレベルの最近傍一貫性を強制する新しい学習損失関数です。我々の手法は、DINOv2-registersなどの事前学習済み表現の上に適用可能な微分可能なソート方法を活用し、学習信号をブートストラップしてさらに改善します。この高密度な事後事前学習により、単一GPUでわずか19時間しか必要としないにもかかわらず、様々なモデルとデータセットで優れた性能を発揮します。この手法が高品質な高密度特徴エンコーダを生成し、いくつかの新しい最先端の結果を確立することを実証します:ADE20kとPascal VOCでの非パラメトリックなインコンテキストセマンティックセグメンテーションにおいて+5.5%と+6%、COCO-Thingsと-Stuffでの線形セグメンテーション評価において+7.2%と+5.7%の改善を達成しました。
大規模言語モデル(LLM)は、インタラクティブなチャットボット、ドキュメント分析、エージェントワークフローなどの長文脈アプリケーションでより一般的になってきているが、長文脈リクエストを低レイテンシと高スループットで提供することは困難である。推測的デコード(SD)は、パフォーマンスを犠牲にすることなくレイテンシを削減するために広く使用されている技術だが、従来の知見では、その効果は小規模なバッチサイズに限定されるとされていた。MagicDecでは、驚くべきことに、SDが中程度から長いシーケンスにおいても高スループット推論レジームで高速化を達成できることを示す。さらに興味深いことに、我々の厳密な分析に基づき、インテリジェントなドラフト戦略を用いることで、バッチサイズが増加するにつれてより良い高速化を実現できる。MagicDecはまず、バッチサイズとシーケンス長の増加に伴うボトルネックの変化を特定し、これらの洞察を活用して高スループット推論において推測的デコードをより効果的に展開する。次に、スパースKVキャッシュを備えたドラフトモデルを活用し、シーケンス長とバッチサイズの両方に比例してスケールするKVボトルネックに対処する。
拡散モデルは、その印象的な能力からテキストから画像生成の分野で最先端を走っています。しかしながら、訓練時の固定された画像解像度は、高解像度画像生成において意味的な不正確さやオブジェクトの複製といった課題を引き起こすことがしばしばあります。本論文では、MegaFusionという新しいアプローチを紹介します。これは、既存の拡散ベースのテキストから画像生成モデルを、追加の微調整や適応なしに効率的な高解像度生成へと拡張するものです。具体的には、異なる解像度間のノイズ除去プロセスを橋渡しするために、斬新な切り捨てとリレー戦略を採用し、粗から細へと高解像度画像を生成することを可能にします。さらに、拡張畳み込みとノイズの再スケジューリングを統合することで、モデルの事前分布を高解像度に適応させます。MegaFusionの汎用性と有効性は、潜在空間とピクセル空間の拡散モデル、およびその他の派生モデルに普遍的に適用可能です。大規模な実験により、MegaFusionが既存モデルのメガピクセルや様々なアスペクト比の画像生成能力を大幅に向上させ、元の計算コストの約40%しか必要としないことが確認されています。
今日の時代において、大規模言語モデル(LLMs)が数多くの実世界のアプリケーションに統合される中、その安全性と堅牢性を確保することは、責任あるAIの使用にとって極めて重要です。自動化されたレッドチーミング手法は、これらのモデルの潜在的な脆弱性を特定し、軽減するために敵対的攻撃を生成することで、このプロセスにおいて重要な役割を果たします。しかし、既存の手法は、遅い性能、限られたカテゴリの多様性、および高いリソース要求に悩まされることが多いです。最近のアプローチであるRainbow Teamingは、敵対的プロンプト生成を品質多様性探索としてフレーム化することで多様性の課題に対処していますが、依然として遅く、最適な性能を得るために大規模な微調整されたミューテーターを必要とします。これらの制限を克服するために、我々はFerretを提案します。これは、Rainbow Teamingを基盤とし、反復ごとに複数の敵対的プロンプト変異を生成し、スコアリング関数を使用して最も効果的な敵対的プロンプトをランク付けして選択する新しいアプローチです。我々は、報酬モデル、Llama Guard、LLM-as-a-judgeなど、さまざまなスコアリング関数を探索し、潜在的な危害に基づいて敵対的変異をランク付けすることで、有害な変異の探索効率を向上させます。我々の結果は、報酬モデルをスコアリング関数として使用するFerretが、全体の攻撃成功率(ASR)を95%に向上させ、Rainbow Teamingよりも46%高いことを示しています。さらに、Ferretは、ベースラインと比較して90%のASRを達成するために必要な時間を15.2%削減し、他の大規模なLLMsでも有効な、転移可能な敵対的プロンプトを生成します。我々のコードはhttps://github.com/declare-lab/ferretで利用可能です。
「マッチカット」は、類似した構図を持つ2つのショットが滑らかに遷移する一般的な映像編集技術です。マッチカットは視覚的なものが多いですが、特定のマッチカットでは音声の滑らかな遷移が含まれ、異なるソースからの音が融合して2つのショット間の区別がつかない遷移を生み出します。本論文では、映像や映画内で「音声マッチカット」を自動的に見つけ、作成する能力を探求します。音声マッチカットのための自己教師あり音声表現を作成し、マッチングするショットを推薦し、ブレンドされた音声を作成する粗から細への音声マッチパイプラインを開発します。さらに、提案された音声マッチカットタスクのためのデータセットを注釈し、複数の音声表現が音声マッチカット候補を見つける能力を比較します。最後に、滑らかな遷移を作成することを目的として、2つのマッチングする音声候補をブレンドする複数の方法を評価します。プロジェクトページと例は以下で利用可能です:https://denfed.github.io/audiomatchcut/
Transformerベースの大規模言語モデル(LLM)は、安全でない応答の生成や信頼性の低い推論などの制限を示します。既存の推論介入アプローチでは、追加のモデルをファインチューニングして、LLMのデコードプロセスを導くキャリブレーション信号(報酬など)を生成することで、これらの問題を緩和しようと試みています。しかし、この解決策では、別個のモデルが必要となるため、大幅な時間とスペースのオーバーヘッドが生じます。本研究では、Transformerアーキテクチャに追加のパラメータを挿入して、元のLLM出力とともにキャリブレーション信号を予測する「非破壊的パラメータ挿入(Otter)」を提案します。Otterは、複数の要求の厳しいタスクにおいて最先端の性能を提供し、最大86.5%の追加スペースと98.5%の追加時間を節約します。さらに、Otterは既存の推論エンジンとシームレスに統合され、わずか1行のコード変更のみで済み、パラメータ挿入後も元のモデル応答にアクセス可能です。私たちのコードはhttps://github.com/chenhan97/Otterで公開されています。
Stable Diffusion、Midjourney、Imagen、DALL-Eなどのモデルに代表されるテキストから画像を生成するシステムの急速な進展は、その悪用の可能性に対する懸念を高めています。これに対応して、MetaやGoogleなどの企業は、AI生成画像に透かし技術を適用する取り組みを強化し、誤解を招く可能性のある視覚情報の拡散を抑制しようとしています。しかし、本論文では、現在の画像透かし技術は脆弱であり、視覚的言い換え攻撃(visual paraphrase attack)によって回避されやすいと主張します。提案する視覚的言い換えシステムは、2つのステップで動作します。まず、最新の画像キャプショニングシステムであるKOSMOS-2を使用して、与えられた画像のキャプションを生成します。次に、元の画像と生成されたキャプションを画像から画像への拡散システムに渡します。拡散パイプラインのノイズ除去ステップ中に、システムはテキストキャプションに導かれた視覚的に類似した画像を生成します。結果として得られる画像は視覚的言い換えであり、透かしは含まれていません。我々の実験結果は、視覚的言い換え攻撃が画像から透かしを効果的に除去できることを示しています。本論文は、既存の透かし技術が視覚的言い換え攻撃に対して脆弱であることを実証的に明らかにする批判的評価を提供します。この問題に対する解決策を提案するものではありませんが、科学コミュニティに対して、より堅牢な透かし技術の開発を優先するよう呼びかけるものです。我々が初めて作成した視覚的言い換えデータセットと関連コードは公開されています。
物理学の専門用語と複雑な概念は、自然言語処理(NLP)による情報抽出において重大な課題を提起します。効果的なNLPアプリケーションの中核となるのは、テキストを密なベクトル表現に変換し、効率的な情報検索と意味解析を可能にするテキスト埋め込みモデルです。本研究では、物理学に特化した初のテキスト埋め込みモデルであるPhysBERTを紹介します。120万件のarXiv物理学論文から構成された精選されたコーパスで事前学習され、教師ありデータで微調整されたPhysBERTは、特定の物理学サブドメインにおける微調整の有効性を含む、物理学特有のタスクにおいて主要な汎用モデルを凌駕する性能を示します。
イベントカメラを用いた視覚追跡は、その独特な撮像原理と低消費電力、高ダイナミックレンジ、高時間分解能といった利点から、近年ますます注目を集めています。現在のイベントベースの追跡アルゴリズムは、ビジョントランスフォーマーの利用や静的テンプレートによる対象物体の位置特定が原因で、徐々に性能の限界に達しつつあります。本論文では、線形計算量の状態空間モデルをバックボーンネットワークとして採用した、新しいMambaベースの視覚追跡フレームワークを提案します。探索領域とターゲットテンプレートは、ビジョンMambaネットワークに入力され、特徴抽出と相互作用が同時に行われます。探索領域の出力トークンは、追跡ヘッドに入力され、ターゲットの位置特定が行われます。さらに重要な点として、Memory Mambaネットワークを使用して、動的テンプレート更新戦略を追跡フレームワークに導入することを検討しています。ターゲットテンプレートライブラリ内のサンプルの多様性を考慮し、テンプレートメモリモジュールに適切な調整を加えることで、より効果的な動的テンプレートを統合できます。動的テンプレートと静的テンプレートの効果的な組み合わせにより、我々のMambaベースの追跡アルゴリズムは、EventVOT、VisEvent、FE240hzなどの大規模データセットにおいて、精度と計算コストの良いバランスを達成します。ソースコードはhttps://github.com/Event-AHU/MambaEVTで公開されます。
ロボットハンドに人間レベルの器用さを付与することは、長年にわたる研究目標となってきた。両手によるロボットピアノ演奏は、高速かつ精密な動作の生成といった動的な課題と、低速だが接触の多い操作問題を組み合わせたタスクである。強化学習ベースのアプローチは単一タスクでの性能において有望な結果を示しているものの、複数曲の設定では苦戦している。本研究はこのギャップを埋め、ロボットピアノ演奏における模倣学習アプローチの大規模な適用を可能にすることを目指している。そのために、100万以上の軌跡を含む両手ロボットピアノ演奏のモーションデータを収録したRobot Piano 1 Million(RP1M)データセットを導入する。指の配置を最適輸送問題として定式化することで、大量の未ラベル曲の自動注釈を可能にした。既存の模倣学習アプローチのベンチマークを行った結果、RP1Mを活用することで、これらのアプローチが最先端のロボットピアノ演奏性能を達成することが示された。
3Dガウシアンスプラッティング(3DGS)は、多くの視覚タスクにおいて3D表現のデファクトスタンダードとなっています。これにより、この表現空間における直接的な3D理解が求められています。この方向性の研究を促進するため、我々はまず、広く使用されているShapeNetとModelNetデータセットを用いて大規模な3DGSデータセットを構築しました。我々のデータセット「ShapeSplat」は、87のユニークなカテゴリからなる65Kのオブジェクトで構成され、そのラベルはそれぞれのデータセットに準拠しています。このデータセットの作成には、TITAN XP GPU上で2GPU年分に相当する計算リソースが使用されました。 我々は、このデータセットを分類とセグメンテーションタスクのための教師なし事前学習と教師ありファインチューニングに活用します。この目的のために、ガウシアンパラメータからの表現学習の独自の利点を強調する\textit{Gaussian-MAE}を導入します。徹底的な実験を通じて、いくつかの貴重な知見を提供します。特に、(1)最適化されたGSセントロイドの分布は、初期化に使用される一様にサンプリングされた点群とは大きく異なること、(2)この分布の変化は、セントロイドのみを使用した場合、分類タスクでは性能が低下するが、セグメンテーションタスクでは改善をもたらすこと、(3)追加のガウシアンパラメータを活用するために、正規化された特徴空間におけるガウシアン特徴グループ化とスプラッツプーリング層を提案し、類似したガウシアンを効果的にグループ化および埋め込むためのカスタマイズされたソリューションを提供し、ファインチューニングタスクにおいて顕著な改善をもたらすことを示します。
都市のモビリティと交通システムは、自動運転車技術の進歩によって大きく変革されてきた。中国のテックジャイアントである百度が提供する先駆的なロボタクシーサービス「Baidu Apollo Go」は、最近、北京や武漢などの主要都市で広く展開され、都市モビリティの未来を垣間見せるものとして、多くの議論を呼んでいる。 本研究では、2024年1月から7月までの36,096件のWeibo投稿を対象に、ハイブリッドBERTモデルを用いたセンチメント分析を通じて、中国全土でのApollo Goに対する一般の態度を調査した。分析の結果、Apollo Goに関連する投稿の89.56%が7月に集中していることが明らかになった。1月から7月にかけて、一般のセンチメントは主に肯定的であったが、7月21日に話題となった後、否定的なコメントが増加し始めた。 空間分析によると、議論の活発な省とApollo Goが運営されている地域との間には強い相関関係が認められた。当初、湖北省と広東省がオンライン投稿量をリードしていたが、7月には広東省、北京市、および国際地域が湖北省を上回った。各省の態度には大きなばらつきがあり、新疆や青海では楽観的な見方が示された一方、チベットや甘粛では従来のタクシーサービスへの影響に対する懸念が表明された。 センチメント分析では、肯定的なコメントは技術の応用や個人の体験に焦点が当てられていたのに対し、否定的なコメントは雇用の喪失や安全性への懸念を中心としていた。要約すると、本研究は自動運転ライドシェアサービスに対する一般の認識の多様性を浮き彫りにし、プランナー、政策立案者、サービス提供者にとって貴重な洞察を提供するものである。モデルはHugging Face(https://huggingface.co/wsqstar/bert-finetuned-weibo-luobokuaipao)で公開されており、リポジトリはGitHub(https://github.com/GIStudio/trb2024)で閲覧可能である。