翻訳付きの日次キュレーションされたAI研究論文
回転位置埋め込み(RoPE)は、トランスフォーマーベースの言語モデルにおいて位置情報を効果的に符号化することが示されている。しかし、これらのモデルは、訓練されたシーケンス長を超える一般化に失敗する。本論文では、YaRN(Yet another RoPE extensioN method)を提案する。これは、従来の手法と比べて10倍少ないトークン数と2.5倍少ない訓練ステップで、モデルのコンテキストウィンドウを拡張する計算効率の良い手法である。YaRNを用いることで、LLaMAモデルが、元の事前訓練で許容される範囲をはるかに超えるコンテキスト長を効果的に利用し、外挿できることを示す。さらに、YaRNは、微調整データセットの限られたコンテキストを超えて外挿する能力を有することを実証する。我々は、64kおよび128kのコンテキストウィンドウでYaRNを用いて微調整したLlama 2 7B/13Bのチェックポイントをhttps://github.com/jquesnelle/yarnで公開する。
人間のフィードバックによる強化学習(RLHF)は、大規模言語モデル(LLM)を人間の好みに合わせるのに有効ですが、高品質な人間の嗜好ラベルを収集することが主要なボトルネックとなっています。本研究では、RLHFとAIフィードバックによる強化学習(RLAIF)——人間の代わりに既存のLLMが嗜好ラベルを付与する手法——を直接比較し、両者が同程度の改善をもたらすことを明らかにしました。要約タスクにおいて、人間の評価者は、RLAIFとRLHFの両方で生成されたテキストを、教師ありファインチューニングされたベースラインモデルよりも約70%のケースで好むことがわかりました。さらに、RLAIFとRLHFの要約を評価するよう求められた場合、人間は両方を同等の割合で好むことが示されました。これらの結果は、RLAIFが人間レベルの性能を発揮し得ることを示唆しており、RLHFのスケーラビリティ制限に対する潜在的な解決策を提供する可能性があります。
本論文では、テキストからビデオを生成するアプローチであるVideoGenを提案します。この手法は、参照画像をガイドとした潜在拡散モデルを用いて、高解像度かつ高いフレーム忠実性と強い時間的一貫性を持つビデオを生成することができます。まず、Stable Diffusionなどの既存のテキストから画像を生成するモデルを活用し、テキストプロンプトから高品質なコンテンツを持つ画像を生成し、これをビデオ生成のための参照画像として使用します。次に、参照画像とテキストプロンプトの両方を条件とした効率的なカスケード潜在拡散モジュールを導入し、潜在ビデオ表現を生成します。その後、フローベースの時間的アップサンプリングステップを適用して時間解像度を向上させます。最後に、強化されたビデオデコーダを通じて潜在ビデオ表現を高解像度ビデオにマッピングします。訓練中は、正解ビデオの最初のフレームを参照画像として使用し、カスケード潜在拡散モジュールを訓練します。本手法の主な特徴は以下の通りです:テキストから画像を生成するモデルによって生成された参照画像が視覚的忠実性を向上させること、これを条件として使用することで拡散モデルがビデオのダイナミクスの学習に集中できること、そしてビデオデコーダがラベルなしビデオデータで訓練されるため、高品質で容易に入手可能なビデオから恩恵を受けることです。VideoGenは、質的および量的な評価の両面において、テキストからビデオ生成の新たな最先端を確立しました。
シャノンは、情報理論を紹介した画期的な論文において、通信を3つのレベルに分けました:技術的レベル、意味的レベル、効果的レベルです。技術的レベルは送信された記号の正確な再構成に関わるのに対し、意味的レベルと効果的レベルは推測される意味とそれが受信者に及ぼす影響を扱います。電気通信のおかげで、最初のレベルの問題はインターネットのような大きな進歩を生み出しました。大規模言語モデル(LLM)は2番目の目標に向けてある程度の進展を見せていますが、3番目のレベルは依然としてほとんど手つかずのままです。3番目の問題は、望ましい受信者行動を予測し、最適化するための通信を扱います。LLMは幅広いタスクにわたる汎化能力を示していますが、これを解決することはできません。このパフォーマンスの低さの一因は、LLMの訓練コーパスにおける「行動トークン」の欠如にある可能性があります。行動トークンは、共有、いいね、クリック、購入、リツイートなど、通信にわたる受信者行動を定義します。LLMの訓練用データを前処理する際、行動トークンはノイズとしてコーパスから除去されることが多いです。したがって、本論文では、LLMの訓練に行動トークンを再導入するための初期の進展を示します。訓練されたモデルは、内容理解タスクにおいてLLMと同等の性能を示すだけでなく、行動シミュレーション、内容シミュレーション、行動理解、行動ドメイン適応において汎化能力を示します。2つのコーパスを用いた幅広いタスクを通じて、これらの能力すべてについて結果を示します。これらのモデルを大規模内容行動モデル(LCBM)と呼びます。さらに、LCBMに関する研究を促進するため、コミュニケーター、メッセージ、および対応する受信者行動を含む新しいコンテンツ行動コーパス(CBC)を公開します。
コンピュータビジョンモデルは、性別や肌の色などの属性に応じて性能の差異が存在することが知られています。これは、分類や検出などのタスクにおいて、画像内の人物の人口統計学的特性に基づいて、特定のクラスに対するモデルの性能が異なることを意味します。これらの差異は存在することが示されていますが、これまでコンピュータビジョンモデルの一般的な使用例におけるこれらの差異を測定する統一的なアプローチはありませんでした。私たちは、FACET(FAirness in Computer Vision EvaluaTion)という新しいベンチマークを提案します。これは、画像分類、物体検出、セグメンテーションといった最も一般的なビジョンタスクのための32,000枚の公開評価データセットです。FACETのすべての画像に対して、専門のレビュアーを雇い、知覚された肌の色や髪のタイプなどの人物関連属性を手動で注釈付けし、手動でバウンディングボックスを描き、ディスクジョッキーやギタリストなどの細かい人物関連クラスをラベル付けしました。さらに、FACETを使用して最先端のビジョンモデルをベンチマークし、敏感な人口統計学的属性にわたる潜在的な性能の差異と課題についてより深い理解を提示します。収集した網羅的な注釈を使用して、単一の人口統計学的属性および交差的なアプローチ(例:髪の色と知覚された肌の色)を使用してモデルを調査します。私たちの結果は、分類、検出、セグメンテーション、および視覚的グラウンディングモデルが、人口統計学的属性および属性の交差にわたって性能の差異を示すことを示しています。これらの害は、データセットに含まれるすべての人々がこれらのビジョンタスクにおいて公平かつ公正な扱いを受けていないことを示唆しています。私たちのベンチマークを使用した現在および将来の結果が、より公平で堅牢なビジョンモデルに貢献することを願っています。FACETはhttps://facet.metademolab.com/で公開されています。