翻訳付きの日次キュレーションされたAI研究論文
我々は、Position Interpolation(PI)を提案します。これは、LLaMAモデルなどのRoPEベースの事前学習済み大規模言語モデル(LLM)のコンテキストウィンドウサイズを、最小限のファインチューニング(1000ステップ以内)で最大32768まで拡張するものです。これにより、パスキー検索、言語モデリング、長文書要約など、長いコンテキストを必要とする様々なタスクにおいて、LLaMA 7Bから65Bまでのモデルで強力な実証結果を示しています。同時に、Position Interpolationによって拡張されたモデルは、元のコンテキストウィンドウ内のタスクにおいても比較的良好な品質を維持します。この目標を達成するために、Position Interpolationは、入力位置インデックスを線形にダウンスケールして元のコンテキストウィンドウサイズに合わせることで、学習済みのコンテキスト長を超えて外挿することを避けます。外挿は、自己注意メカニズムを完全に破壊する可能性のある破滅的に高い注意スコアを引き起こすことがあります。我々の理論的研究は、補間の上限が外挿の上限よりも少なくとも約600倍小さいことを示しており、その安定性をさらに実証しています。Position Interpolationによって拡張されたモデルは、元のアーキテクチャを保持し、既存の最適化やインフラストラクチャの大部分を再利用することができます。
大規模言語モデル(LLM)は、Leanなどの証明アシスタントを使用して形式的な定理を証明する際に有望な成果を示しています。しかし、既存の手法は、非公開のコードやデータ、そして大規模な計算リソースを必要とするため、再現や拡張が困難です。これにより、定理証明のための機械学習手法に関する研究に大きな障壁が生じています。本論文では、これらの障壁を取り除くために、LeanDojoを紹介します。LeanDojoは、ツールキット、データ、モデル、ベンチマークからなるオープンソースのLeanプレイグラウンドです。LeanDojoはLeanからデータを抽出し、プログラム的に証明環境と対話することを可能にします。証明内の前提条件の細かいアノテーションを含んでおり、定理証明の主要なボトルネックである前提選択のための貴重なデータを提供します。このデータを使用して、我々はReProver(Retrieval-Augmented Prover)を開発しました。ReProverは、広大な数学ライブラリから前提を選択するために検索機能を強化した初めてのLLMベースの証明器です。これは低コストであり、わずか1週間のGPUトレーニングのみを必要とします。我々の検索器は、LeanDojoのプログラム解析能力を活用してアクセス可能な前提と困難なネガティブ例を特定し、検索を大幅に効果的にします。さらに、Leanの数学ライブラリから抽出された96,962の定理と証明からなる新しいベンチマークを構築しました。これは、トレーニング中に使用されなかった新しい前提に依存する定理に一般化することを証明器に要求する挑戦的なデータ分割を特徴としています。我々はこのベンチマークをトレーニングと評価に使用し、実験結果はReProverが非検索ベースラインやGPT-4を上回る有効性を示しています。これにより、我々はプロプライエタリなデータセットを一切使用しない初めてのオープンソースLLMベースの定理証明器セットを提供し、さらなる研究を促進するために寛容なMITライセンスの下で公開します。
最近の研究であるCLIPAは、CLIPトレーニングにおける逆スケーリング則を提示しています。これは、使用する画像/テキストエンコーダが大きくなるほど、トレーニングに適用できる画像/テキストトークンのシーケンス長が短くなるというものです。この発見により、大幅に計算量を削減しながら高性能なCLIPモデルをトレーニングすることが可能になりました。この研究を基盤として、私たちはCLIPA-v2を発表し、2つの主要な貢献を果たします。技術的には、この逆スケーリング則がファインチューニング段階でも適用可能であり、さらに計算量を削減できることを発見しました。実験的には、CLIPAを大規模に探索し、トレーニング中に約130億の画像-テキストペアを見たH/14モデルまで実験を拡張しました。 私たちの結果は非常に興味深いものです。わずか10,000の予算を割り当てるだけで、私たちのCLIPモデルは81.1%という印象的なゼロショットImageNet精度を達成し、以前の最高のCLIPモデル(OpenCLIPの80.1%)を1.0%上回り、同時に計算コストを約39倍削減しました。さらに、4,000の追加投資を行うことで、ゼロショットImageNet精度を81.8%までさらに向上させることができます。私たちのコードとモデルはhttps://github.com/UCSC-VLAA/CLIPAで公開されています。
カメラポーズ推定は、長年にわたるコンピュータビジョンの課題であり、現在でも手作りのキーポイントマッチング、RANSAC、バンドル調整といった古典的な手法に依存することが多い。本論文では、Structure from Motion (SfM) 問題を確率的拡散フレームワーク内で定式化し、入力画像が与えられたときのカメラポーズの条件付き分布をモデル化することを提案する。この古い問題に対する新しい視点には、いくつかの利点がある。(i) 拡散フレームワークの性質は、バンドル調整の反復的な手順を反映している。(ii) この定式化により、エピポーラジオメトリからの幾何学的制約をシームレスに統合できる。(iii) 広いベースラインを持つ疎なビューといった典型的に困難なシナリオにおいて優れた性能を発揮する。(iv) 任意の数の画像に対する内部パラメータと外部パラメータを予測できる。我々の手法PoseDiffusionが、2つの実世界のデータセットにおいて、古典的なSfMパイプラインや学習ベースのアプローチを大幅に上回ることを実証する。最後に、我々の手法が追加のトレーニングなしにデータセット間で一般化できることが観察された。プロジェクトページ: https://posediffusion.github.io/
音声発話における無相関な情報を分離することは、音声コミュニティにおける重要な研究テーマです。さまざまな音声関連タスクでは、他の無相関な情報の影響を最小化しつつ、異なる音声表現を抽出することに焦点を当てています。本論文では、音声表現の分離研究を促進するための大規模な音声コーパスを紹介します。3D-Speakerは、10,000人以上の話者を含み、各話者は複数のデバイスで同時に録音され、異なる距離に位置し、一部の話者は複数の方言を話します。多次元の音声データの制御された組み合わせにより、多様な音声表現の絡み合いのマトリックスが生成され、それらを解きほぐすための興味深い手法を動機付けます。3D-Speakerのマルチドメイン性は、大規模な汎用音声モデルの評価や、ドメイン外学習や自己教師あり学習の実験手法にも適したリソースとなっています。https://3dspeaker.github.io/
多くのピクセル単位の密な予測タスク(深度推定やセマンティックセグメンテーションなど)は、現在、事前学習された画像表現に依存しています。そのため、効果的な事前学習データセットを整備することが極めて重要です。しかし、効果的な事前学習データセットは、多視点シーンを有し、シミュレーション環境から得られた注釈付き3Dメッシュ、点群、カメラパラメータを用いてのみ整備されてきました。本論文では、注釈を一切必要としないデータセット整備メカニズムを提案します。私たちは、オープンソースのビデオデータセットと合成3D環境から、130万組の多視点画像ペアを含むMIMIC-1Mと、310万組の多視点画像ペアを含むMIMIC-3Mという2つのデータセットを構築しました。異なるマスク画像モデリング目的関数を用いて複数の自己教師ありモデルを学習し、以下の知見を示します:MIMIC-3Mで学習された表現は、深度推定、セマンティックセグメンテーション、表面法線、姿勢推定などの複数の下流タスクにおいて、注釈を用いて構築された表現を上回りました。また、表現が固定されている場合や、下流の学習データが少数ショットに限定されている場合にも優れた性能を示しました。より大規模なデータセット(MIMIC-3M)は性能を大幅に向上させ、私たちの整備方法が任意にスケールしてさらに大規模なデータセットを生成できる点で有望です。MIMICのコード、データセット、事前学習済みモデルは、https://github.com/RAIVNLab/MIMIC で公開されています。
文脈内学習(ICL)は、推論時に少数の例を示すだけで、言語モデルの様々なNLPタスクにおける性能を向上させます。ICL能力がなぜ発現するのかは十分に理解されておらず、モデルはそのようなデモンストレーションに対して特別に訓練されたわけではありません。これまでの研究がICLの背後にある暗黙のメカニズムを探求してきたのとは異なり、我々は事前学習データを調査することでICLを研究します。具体的には、まず、ICLをサポートする事前学習データの小さなサブセットを見つけるために、反復的で勾配ベースのアプローチを適用します。この小さなサブセットでの継続的な事前学習が、モデルのICL能力を最大18%向上させることを観察します。次に、このサポート的なサブセットを、事前学習データのランダムなサブセットと対照的に比較し、以下のことを発見します:(1)ICLをサポートする事前学習データは、下流タスクに対するドメイン関連性が高いわけではありません。(2)ICLをサポートする事前学習データは、稀に出現するロングテールのトークンの割合が高いです。(3)ICLをサポートする事前学習データは、長距離コンテキストからの情報利得が平均以下である挑戦的な例であり、難しい長距離コンテキストを組み込む学習がICLを促進することを示しています。我々の研究は、インスタンスレベルの事前学習データを分析することでICLを理解するための第一歩を踏み出しました。我々の洞察は、将来の事前学習データの構築を積極的に導くことで、言語モデルのICL能力を向上させる可能性を秘めています。
大規模言語モデルは現在、その開発者の目標、すなわち「役に立ち、無害である」ことに合わせて調整されています。これらのモデルは、ユーザーの質問に対して役立つ回答をする一方で、害を及ぼす可能性のあるリクエストには応じないように設計されています。しかし、敵対的なユーザーは、この調整を回避する入力を構築することができます。本研究では、最悪のケースの入力(敵対的サンプル)を構築する敵対的なユーザーと相互作用する場合でも、これらのモデルがどの程度調整された状態を維持するかを調査します。これらの入力は、モデルが本来禁止されている有害なコンテンツを出力するように設計されています。既存のNLPベースの最適化攻撃は、調整されたテキストモデルを確実に攻撃するには不十分であることを示します。現在のNLPベースの攻撃が失敗した場合でも、力ずくで敵対的入力を発見することができます。その結果、現在の攻撃の失敗は、調整されたテキストモデルが敵対的入力の下でも調整された状態を維持する証拠と見なすべきではありません。 しかし、最近の大規模MLモデルのトレンドは、ユーザーが提供した画像が生成されるテキストに影響を与えるマルチモーダルモデルです。これらのモデルは、入力画像の敵対的摂動を通じて、任意の非調整行動を実行するように簡単に攻撃できることを示します。改善されたNLP攻撃が、テキストのみのモデルに対して同じレベルの敵対的制御を実証する可能性があると推測します。
我々は、トランスフォーマーが2つの課題にどのように対処するかを検証した:基本的な整数演算の学習と、訓練中に見たよりも長い系列への一般化である。相対的位置埋め込みが、加算のような単純なタスクにおいて長さの一般化を可能にすることがわかった:5桁の数字で訓練されたモデルが15桁の加算を実行できる。しかし、この方法は乗算では失敗し、我々は訓練セットプライミングを提案する:訓練セットにいくつか(10から50)の長い系列を追加する。プライミングにより、5桁×3桁の乗算で訓練されたモデルが35×3の例に一般化できることを示す。また、モデルが異なる一般化長に対してプライミング可能であり、プライミングサンプルサイズが訓練セットサイズの対数としてスケールすることを示す。最後に、演算を超えたプライミングの潜在的な応用について議論する。