翻訳付きの日次キュレーションされたAI研究論文
大規模言語モデル(LLM)を指示に基づいてファインチューニングすることで、自然言語タスクにおける性能が大幅に向上します。本研究では、コードを用いた指示チューニングを適用し、コード変更と人間の指示をペアリングするGitコミットの自然な構造を活用します。私たちはCommitPackを構築しました。これは350のプログラミング言語にわたる4テラバイトのGitコミットから成ります。CommitPackを他の自然および合成コード指示(xP3x、Self-Instruct、OASST)と比較し、16BパラメータのStarCoderモデルでベンチマークを行い、HumanEval PythonベンチマークにおいてOpenAIの出力で訓練されていないモデルの中で最高の性能(46.2% pass@1)を達成しました。さらに、HumanEvalPackを導入し、HumanEvalベンチマークを6言語(Python、JavaScript、Java、Go、C++、Rust)にわたる3つのコーディングタスク(コード修復、コード説明、コード合成)に拡張しました。私たちのモデル、OctoCoderとOctoGeeXは、HumanEvalPack全体で最も優れた性能を達成し、CommitPackがより広範な言語と自然なコーディングタスクに一般化する利点を実証しました。コード、モデル、データはhttps://github.com/bigcode-project/octopackで自由に利用可能です。
近年、大規模なテキストから画像への拡散モデルが、高精細な画像を生成する印象的な能力を発揮し、その強力なパワーが注目を集めています。しかし、テキストプロンプトのみを使用して目的の画像を生成することは非常に難しく、複雑なプロンプトエンジニアリングを必要とすることが多いです。テキストプロンプトの代替として、画像プロンプトが挙げられます。ことわざにもあるように、「一枚の画像は千の言葉に値する」のです。既存の事前学習済みモデルからの直接的なファインチューニング手法は有効ですが、大規模な計算リソースを必要とし、他のベースモデルやテキストプロンプト、構造制御との互換性がありません。本論文では、事前学習済みのテキストから画像への拡散モデルに画像プロンプト機能を実現するための、効果的で軽量なアダプターであるIP-Adapterを提案します。私たちのIP-Adapterの鍵となる設計は、テキスト特徴と画像特徴のためのクロスアテンションレイヤーを分離する分離型クロスアテンションメカニズムです。私たちの手法のシンプルさにもかかわらず、わずか22Mのパラメータを持つIP-Adapterは、完全にファインチューニングされた画像プロンプトモデルと同等またはそれ以上の性能を達成できます。事前学習済みの拡散モデルを凍結するため、提案されたIP-Adapterは、同じベースモデルからファインチューニングされた他のカスタムモデルだけでなく、既存の制御可能なツールを使用した制御可能な生成にも一般化できます。分離型クロスアテンション戦略の利点により、画像プロンプトはテキストプロンプトと組み合わせて、マルチモーダルな画像生成を実現することもできます。プロジェクトページはhttps://ip-adapter.github.ioで公開されています。
音声テキストプロンプトに基づく生成音声モデルの最近の進展により、高品質なゼロショットテキスト読み上げなど、注目すべきイノベーションが実現されています。しかし、既存のモデルは、入力音声の変換や劣悪な音響条件下で録音された音声の処理など、多様な音声テキスト生成タスクを扱う際に依然として制約があります。本論文では、SpeechXを紹介します。これは、クリーンな信号とノイズを含む信号の両方を扱うことができ、ゼロショットTTSや様々な音声変換タスクに対応可能な汎用音声生成モデルです。SpeechXは、ニューラルコーデック言語モデリングとタスク依存プロンプトを用いたマルチタスク学習を組み合わせることで、統一された拡張可能なモデリングを実現し、音声強調や変換タスクにおいてテキスト入力を活用する一貫した方法を提供します。実験結果は、SpeechXがゼロショットTTS、ノイズ抑制、ターゲットスピーカー抽出、音声除去、背景ノイズの有無にかかわらずの音声編集など、様々なタスクにおいて有効であり、各タスクで特化モデルに匹敵するかそれ以上の性能を達成することを示しています。デモサンプルはhttps://aka.ms/speechxをご覧ください。
本研究では、Platypusファミリーを紹介します。これは、微調整とマージを施した大規模言語モデル(LLM)の一群であり、本作の公開日時点でHuggingFaceのOpen LLM Leaderboardにおいて最強の性能を達成し、首位を獲得しています。本論文では、(1) 他の公開データセットのサブセットであるOpen-Platypusデータセットを精選し、一般公開すること、(2) 事前学習済みLLMの強力な事前知識を保持しつつ、特定のドメイン知識を表面化させるためにLoRAモジュールを微調整・マージするプロセス、(3) トレーニングデータにおけるテストデータの漏洩や汚染をチェックする取り組みについて説明します。これらは今後の研究に役立つ情報を提供します。特に、Platypusファミリーは、モデルサイズを問わず、定量的なLLMメトリクスにおいて優れた性能を発揮し、他の最先端の微調整済みLLMに必要な微調整データ量や計算量の一部のみを使用しながら、グローバルなOpen LLMリーダーボードのトップに立っています。具体的には、13BのPlatypusモデルは、単一のA100 GPUを使用して25,000の質問を5時間でトレーニングすることが可能です。これは、我々のOpen-Platypusデータセットの質の高さを示すものであり、この分野におけるさらなる改善の機会を開くものです。プロジェクトページ: https://platypus-llm.github.io
最近の実証的研究によると、トランスフォーマーベースのインコンテキスト学習は、プレフィックス言語モデル(prefixLM)を使用した場合の方が、因果的言語モデル(causalLM)よりも優れたパフォーマンスを示すことが明らかになっています。プレフィックス言語モデルでは、インコンテキストサンプルが互いに注意を向けることが可能であるのに対し、因果的言語モデルでは、自己回帰的な注意機構を使用するため、インコンテキストサンプルが将来のサンプルに注意を向けることが禁止されています。この結果は直感的に理解できますが、理論的な観点からはまだ解明されていません。本論文では、理論的アプローチを取り、特定のパラメータ構成下でのプレフィックス言語モデルと因果的言語モデルの収束挙動を分析します。我々の分析によると、両方の言語モデルタイプは線形速度で定常点に収束しますが、プレフィックス言語モデルは線形回帰の最適解に収束するのに対し、因果的言語モデルの収束ダイナミクスはオンライン勾配降下法のアルゴリズムに従い、サンプル数が無限に増えても最適であることが保証されません。我々は、理論的な主張を補完するために、合成タスクと実タスク、およびさまざまなタイプのトランスフォーマーを使用した実証実験を行いました。実験結果は、因果的言語モデルがすべての設定で一貫してプレフィックス言語モデルよりも低いパフォーマンスを示すことを検証しています。
ブラインド顔復元は、未知の劣化を伴う顔画像から高品質な顔画像を復元することを目的としています。現在のアルゴリズムは主に事前情報を導入して高品質なディテールを補完し、印象的な進歩を達成しています。しかし、これらのアルゴリズムの多くは、顔に含まれる豊富な文脈情報と事前情報との相互作用を無視しており、最適ではない性能に留まっています。さらに、合成シナリオと実世界シナリオの間のギャップにあまり注意を払わないため、実世界アプリケーションに対するロバスト性と汎化性が制限されています。本研究では、RestoreFormer++を提案します。一方では、完全空間的注意メカニズムを導入して文脈情報と事前情報との相互作用をモデル化し、他方では、拡張劣化モデルを探索してより現実的な劣化顔画像を生成し、合成から実世界へのギャップを軽減します。現在のアルゴリズムと比較して、RestoreFormer++にはいくつかの重要な利点があります。まず、従来のビジュアルトランスフォーマーのようなマルチヘッド自己注意メカニズムを使用する代わりに、マルチスケール特徴量に対するマルチヘッドクロス注意を導入して、劣化情報と高品質な事前情報との空間的相互作用を完全に探求します。これにより、RestoreFormer++はよりリアルで忠実度の高い顔画像を復元することができます。第二に、認識指向の辞書とは対照的に、復元指向の辞書を事前情報として学習し、より多様な高品質な顔のディテールを含み、復元目標により適合します。第三に、より現実的な劣化シナリオを含む拡張劣化モデルを導入し、トレーニングデータの合成を支援することで、RestoreFormer++モデルのロバスト性と汎化性を向上させます。大規模な実験により、RestoreFormer++が合成データセットと実世界データセットの両方で最先端のアルゴリズムを上回ることが示されています。
自然言語から対象ドメインを深く理解することで、大規模なドメインギャップを越えた翻訳や、骨格から生物を復元する有望な結果を生み出しています。本研究では、テキスト誘導型潜在拡散モデルを用いて、大規模なドメインギャップを越えたゼロショット画像間翻訳(longI2I)を行います。ここでは、対象ドメインに移行するために大量の新しい視覚的特徴と幾何学を生成する必要があります。大規模なドメインギャップを越えた翻訳が可能であることは、犯罪学、占星術、環境保護、古生物学など、現実世界での多様な応用が期待されます。本研究では、頭蓋骨と生きた動物の間の翻訳を行う新しいタスク「Skull2Animal」を導入します。このタスクにおいて、非誘導型の生成的敵対ネットワーク(GAN)は大規模なドメインギャップを越えた翻訳ができないことがわかりました。従来のI2I手法の代わりに、誘導型拡散モデルと画像編集モデルの使用を探求し、テキストプロンプトによる潜在拡散モデルを用いてゼロショットI2Iを実行可能な新しいベンチマークモデル「Revive-2I」を提供します。大規模なドメインギャップを埋めるためには、対象ドメインに関する事前知識が必要であるため、longI2Iにおいて誘導が不可欠であることがわかりました。さらに、分類器誘導型拡散モデルは特定の使用例に対して再学習が必要であり、訓練された画像の多様性のために対象ドメインに対する強い制約が欠けているのに対し、プロンプトが対象ドメインに関する最良で最もスケーラブルな情報を提供することがわかりました。
機械翻訳(MT)の自動評価は、MTシステムの迅速な反復開発を推進する重要なツールです。単一のスカラー品質スコアを推定する点では大きな進展が見られていますが、現在の評価指標は、Multidimensional Quality Metrics(MQM)のような個々のエラーを注釈する詳細なスキームの情報量に欠けています。本論文では、このギャップを埋めるため、大規模言語モデル(LLM)の推論能力と文脈内学習能力を活用し、翻訳におけるエラーの特定と分類を依頼するプロンプト技術であるAutoMQMを提案します。まず、PaLMやPaLM-2などの最近のLLMを、単純なスコア予測プロンプトを通じて評価し、文脈内学習とファインチューニングを通じたラベル付きデータの影響を調査します。次に、PaLM-2モデルを用いてAutoMQMを評価し、スコアのみをプロンプトする場合と比較して性能が向上すること(特に大規模モデルで大きな改善が見られること)、さらに人間の注釈と整合するエラースパンを通じて解釈可能性が提供されることを確認します。
私たちは、実世界での使用を想定した指示追従型視覚言語モデルの評価のためのベンチマーク「VisIT-Bench(Visual InsTruction Benchmark)」を紹介します。出発点として、指示チューニングされた視覚言語モデルが対応すべき70の「指示ファミリー」を精選しました。VQAv2やCOCOなどの評価を超えて、基本的な認識からゲームプレイ、創造的な生成まで幅広いタスクを網羅しています。精選後、私たちのデータセットは592のテストクエリで構成され、それぞれに人間が作成した指示条件付きキャプションが付属しています。これらの説明は指示固有の要素を浮き彫りにします。例えば、車椅子ユーザーにとっての店舗のアクセシビリティについて尋ねる指示に対して、指示条件付きキャプションはスロープや潜在的な障害物を説明します。これらの説明により、1) 各インスタンスに対する人間による検証済みの参照出力を収集し、2) テキストのみのLLMを使用して候補となるマルチモーダル生成を自動評価し、人間の判断と整合させることが可能になります。私たちは、人間による評価と自動評価の両方を使用して、モデルと参照出力の間の品質ギャップを定量化します。例えば、最高の指示追従モデルでさえ、GPT-4の参照出力に対してわずか27%の比較で勝利しています。VisIT-Benchは動的に参加可能で、実践者はプロジェクトのウェブサイトにモデルの応答を提出するだけで参加できます。データ、コード、リーダーボードはvisit-bench.github.ioで利用可能です。