翻訳付きの日次キュレーションされたAI研究論文
大規模言語モデル(LLM)の指示チューニングは、ハイパーパラメータ選択の複雑さと、チューニングされたモデルを評価する難しさから、依然として困難な課題です。最適なハイパーパラメータを決定するためには、自動的で堅牢かつ信頼性の高い評価ベンチマークが不可欠です。しかし、評価の正確性とプライバシー保護に関連する課題から、そのようなベンチマークを確立することは容易ではありません。これらの課題に対応するため、我々はPandaLMという名の審判用大規模言語モデルを導入しました。PandaLMは、複数のLLMが与えられた場合に優れたモデルを識別するように訓練されています。PandaLMの焦点は、従来の評価データセットが主に注目する回答の客観的な正確性だけでなく、相対的な簡潔さ、明瞭さ、指示への忠実度、包括性、形式性といった重要な主観的要因にも及びます。PandaLMの信頼性を確保するため、我々は多様な人間による注釈付きテストデータセットを収集しました。このデータセットでは、すべてのコンテキストが人間によって生成され、ラベルは人間の嗜好に沿っています。我々の結果は、PandaLM-7Bがテストデータセットにおいて、F1スコアの観点でGPT-3.5の評価能力の93.75%、GPT-4の88.28%を達成することを示しています。PandaLMは、LLMの評価をより公平かつ低コストで可能にし、PandaLMを通じてチューニングされたモデルが、デフォルトのAlpacaのハイパーパラメータで訓練されたモデルと比較して大幅な改善を達成したことで証明されています。さらに、PandaLMはAPIベースの評価に依存しないため、潜在的なデータ漏洩を回避しています。PandaLMのすべてのリソースはhttps://github.com/WeOpenML/PandaLMで公開されています。
命令チューニングされた大規模言語モデルは、自然言語処理に革命をもたらし、会話エージェントなどのアプリケーションにおいて大きな可能性を示しています。GPT-4のようなこれらのモデルは、言語を習得するだけでなく、数学、コーディング、医学、法律などの分野で複雑なタスクを解決することができます。その印象的な能力にもかかわらず、多くのモデルがブラックボックスであることや、包括的な評価研究の欠如により、その全容を理解するにはまだ課題が残っています。これらの課題に対処するため、私たちは命令チューニングされた大規模言語モデルに特化したより包括的な評価スイートであるINSTRUCTEVALを提案します。従来の研究とは異なり、私たちの評価では、問題解決能力、文章作成能力、人間の価値観との整合性に基づいてモデルを厳密に評価します。私たちは、事前学習の基盤、命令チューニングデータ、学習方法など、モデルのパフォーマンスに影響を与えるさまざまな要因を包括的に分析します。私たちの調査結果から、命令データの品質がモデルのパフォーマンスをスケールする上で最も重要な要因であることが明らかになりました。オープンソースモデルは印象的な文章作成能力を示していますが、問題解決能力と整合性には大幅な改善の余地があります。オープンソースコミュニティによるモデルの急速な発展に勇気づけられていますが、これらのモデルに関する主張を裏付けるための厳密な評価の必要性も強調しています。INSTRUCTEVALを通じて、命令チューニングされたモデルのより深い理解とその能力の進展を促進することを目指しています。INSTRUCTEVALはhttps://github.com/declare-lab/instruct-evalで公開されています。
大規模言語モデル(LLM)は現在、日常的に利用されるようになり、今後10年間で大量のテキストを生成することが期待されています。機械生成テキストは、インターネット上の人間が書いたテキストを置き換える可能性があり、スピアフィッシング攻撃やソーシャルメディアボットなどの悪意のある目的に使用される可能性があります。透かし(ウォーターマーク)は、LLM生成テキストの検出と記録を可能にすることで、そのような害を軽減するためのシンプルで効果的な戦略です。しかし、重要な疑問が残ります:現実の環境において、透かしはどの程度信頼できるのでしょうか?そこでは、透かしが入ったテキストが他のテキストソースと混ざったり、人間のライターや他の言語モデルによって言い換えられたり、社会的および技術的な幅広い分野のアプリケーションに使用されたりする可能性があります。本論文では、さまざまな検出スキームを探り、透かしを検出する際のその力を定量化し、各シナリオで透かしを確実に検出するためにどれだけの機械生成テキストを観察する必要があるかを明らかにします。特に、人間による言い換えに直面した場合の透かしの信頼性を調査した人間研究に焦点を当てます。透かしベースの検出を他の検出戦略と比較し、特にそのサンプル複雑性の観点から、透かしが信頼できるソリューションであることを明らかにします。私たちが検討したすべての攻撃において、透かしの証拠は例が増えるにつれて蓄積され、最終的に透かしが検出されます。
本研究では、一連のオープンな指示追従データセットを用いた言語モデルの指示チューニングに関する最新の進展を探求します。最近の主張では、オープンモデルが最先端のプロプライエタリモデルと同等の性能を発揮できるとされていますが、これらの主張はしばしば限定的な評価に基づいており、モデルを包括的に比較し、さまざまなリソースの有用性を判断することが困難です。我々は、6.7Bから65Bパラメータまでの大規模な指示チューニングモデルを提供し、手動でキュレーションされたもの(例:OpenAssistant)から合成および蒸留されたもの(例:Alpaca)まで、12の指示データセットでトレーニングし、事実知識、推論、多言語性、コーディング、およびオープンエンドの指示追従能力を、自動評価、モデルベース評価、人間ベース評価のコレクションを通じて体系的に評価します。さらに、高品質なオープンリソースの組み合わせでファインチューニングされた、最高性能を発揮する指示チューニングモデルスイートであるT\"uluを紹介します。 実験結果から、異なる指示チューニングデータセットが特定のスキルを明らかにしたり強化したりすることが示されましたが、単一のデータセット(またはその組み合わせ)がすべての評価で最高の性能を発揮するわけではありませんでした。興味深いことに、モデルおよび人間の嗜好に基づく評価は、ベンチマークベースの評価によって明らかになるモデル能力の違いを反映しないことがわかり、本研究で実施したような体系的な評価の必要性が示唆されます。評価結果から、任意の評価において最高のモデルは平均してChatGPTの性能の83%、GPT-4の性能の68%に達しており、ギャップを埋めるためには、より優れたベースモデルと指示チューニングデータの構築へのさらなる投資が必要であることが示されました。我々は、完全にファインチューニングされた65BのT\"uluを含む指示チューニングモデル、コード、データ、および評価フレームワークをhttps://github.com/allenai/open-instructで公開し、今後の研究を促進します。
我々は、大規模言語モデルLLaMA-7Bを過去のトークンウィンドウに基づく次トークン予測器として用いることで、英語のエントロピーに対する漸近的上界の新たな推定値を提供する。この推定値は、cover1978convergentやlutati2023focusで現在利用可能な推定値よりも大幅に小さい。自然な副産物として、大規模言語モデルの予測と可逆圧縮スキームを組み合わせた英語テキストの可逆圧縮アルゴリズムが得られる。限定的な実験からの予備結果は、我々のスキームがBSC、ZPAQ、paq8hなどの最先端テキスト圧縮スキームを上回る性能を示唆している。
単眼画像から動物の体などの3D関節形状を推定することは、カメラの視点、ポーズ、テクスチャ、照明などの曖昧さにより、本質的に困難な課題です。本論文では、野外で撮影された疎な画像コレクションからインスタンスごとの3D形状を再構築するための自己教師ありフレームワーク、ARTIC3Dを提案します。具体的には、ARTIC3Dはスケルトンベースの表面表現を基盤としており、Stable Diffusionからの2D拡散事前分布によってさらに導かれます。まず、2D拡散を用いてオクルージョンや切り取りを伴う入力画像を強化し、よりクリーンなマスク推定とセマンティック特徴を取得します。次に、拡散誘導型の3D最適化を実行し、高忠実度で入力画像に忠実な形状とテクスチャを推定します。また、既存の手法と比較して、拡散モデルを用いてより安定した画像レベルの勾配を計算する新たな技術を提案します。最後に、剛体部分変換の下でレンダリングされた形状とテクスチャを微調整することで、リアルなアニメーションを生成します。複数の既存データセットおよび新たに導入されたオクルージョンや切り取りを伴うノイジーなウェブ画像コレクションに対する広範な評価により、ARTIC3Dの出力がノイジーな画像に対してよりロバストであり、形状とテクスチャの詳細において高品質であり、アニメーション時によりリアルであることが実証されました。プロジェクトページ: https://chhankyao.github.io/artic3d/
StableDiffusionは、画像生成と編集の世界に大きな波紋を投げかけている革新的なテキストから画像への生成モデルです。従来のピクセル空間で拡散モデルを学習する方法とは異なり、StableDiffusionはVQGANを介して潜在空間で拡散モデルを学習し、効率性と品質の両方を確保しています。これは画像生成タスクをサポートするだけでなく、画像修復や局所的な編集など、実画像の編集も可能にします。しかし、StableDiffusionで使用されている標準的なVQGANは、情報の大幅な損失を引き起こし、編集されていない画像領域でも歪みのアーティファクトを生じさせることが観察されています。この問題に対処するため、我々は2つのシンプルな設計を持つ新しい非対称VQGANを提案します。まず、エンコーダからの入力に加えて、デコーダには修復タスクにおける未マスク画像領域などのタスク固有の事前情報を取り込む条件分岐を含めます。次に、デコーダはエンコーダよりもはるかに重く設計されており、総推論コストをわずかに増加させるだけで、より詳細な復元を可能にします。我々の非対称VQGANの学習コストは低く、標準的なVQGANエンコーダとStableDiffusionを変更せずに、新しい非対称デコーダのみを再学習する必要があります。この非対称VQGANは、StableDiffusionベースの画像修復や局所編集手法に広く適用可能です。大規模な実験により、元のテキストから画像への能力を維持しつつ、修復と編集の性能を大幅に向上させることが実証されています。コードはhttps://github.com/buxiangzhiren/Asymmetric_VQGANで公開されています。
学術界および産業界における大規模言語モデル(LLMs)への依存度の高まりに伴い、プロンプトに対するそれらの頑健性を包括的に理解することが必要不可欠となっている。この重要なニーズに応えるため、本研究では、LLMsの敵対的プロンプトに対する耐性を測定するための頑健性ベンチマーク「PromptBench」を提案する。本研究では、文字、単語、文、および意味レベルにわたるプロンプトを対象とした多様な敵対的テキスト攻撃を活用し、これらのプロンプトを感情分析、自然言語推論、読解、機械翻訳、数学問題解決などの多様なタスクに適用する。本研究では、4,032の敵対的プロンプトを生成し、8つのタスクと13のデータセットにわたって計567,084のテストサンプルを精緻に評価した。その結果、現代のLLMsが敵対的プロンプトに対して脆弱であることが明らかとなった。さらに、プロンプトの頑健性とその転移性の背後にある謎を理解するための包括的な分析を提示し、研究者および日常ユーザー双方にとって有益なプロンプト構成に関する洞察に満ちた頑健性分析と実践的な提言を提供する。本研究では、敵対的プロンプトを生成するためのコード、プロンプト、および方法論を公開し、この重要な分野における共同探求を促進する。詳細は以下を参照のこと:https://github.com/microsoft/promptbench。
モバイルデバイス上でのNMT(ニューラル機械翻訳)モデルの展開は、プライバシー、低遅延、およびオフラインシナリオにおいて重要である。高いモデル容量を実現するため、NMTモデルは比較的大きなサイズとなる。これらのモデルをデバイス上で実行することは、限られたストレージ、メモリ、計算能力、および電力消費の中で課題となる。既存の研究は、FLOPsなどの単一の指標に焦点を当てるか、または自己回帰デコードに適していない汎用エンジンに限定されている。本論文では、15MBと30msでデバイス上で翻訳を実行可能なMobileNMTシステムを提案する。量子化と組み合わせたモデル圧縮のための一連の原則を提示し、さらにINT8とデコードに適したエンジンを実装する。モデルとエンジンの共同設計により、既存システムと比較して47.0倍の高速化と99.5%のメモリ節約を実現し、BLEUスコアの損失はわずか11.6%に抑えた。コードはhttps://github.com/zjersey/Lightseq-ARMで公開されている。
中国コミュニティにおけるVision-Language Pre-training(VLP)とマルチモーダル大規模言語モデル(LLM)の発展を促進するため、我々はまず、中国最大の公開高品質ビデオ言語データセット「Youku-mPLUG」をリリースしました。このデータセットは、中国で有名なビデオ共有サイトであるYoukuから、安全性、多様性、品質の厳格な基準に基づいて収集されています。Youku-mPLUGは、45の多様なカテゴリーにわたる4億の生ビデオからフィルタリングされた1000万の中国語ビデオテキストペアを含み、大規模な事前学習に適しています。さらに、ビデオ言語モデルの包括的な評価を容易にするため、クロスモーダル検索、ビデオキャプショニング、ビデオカテゴリー分類という3つの人気のあるビデオ言語タスクをカバーする、最大の人間注釈付き中国語ベンチマークを慎重に構築しました。Youku-mPLUGは、研究者がより深いマルチモーダル研究を行い、将来のより良いアプリケーションを開発することを可能にします。さらに、人気のあるビデオ言語事前学習モデルであるALPROとmPLUG-2、および我々が提案するモジュール化されたデコーダのみのモデルmPLUG-videoをYouku-mPLUGで事前学習させてリリースしました。実験では、Youku-mPLUGで事前学習したモデルがビデオカテゴリー分類で最大23.1%の改善を示しました。また、mPLUG-videoは、ビデオカテゴリー分類で80.5%のトップ1精度、ビデオキャプショニングで68.9のCIDErスコアを達成し、これらのベンチマークで新たな最先端の結果を達成しました。最後に、我々は、凍結されたBloomzに基づいてmPLUG-videoをスケールアップし、わずか1.7%の学習可能なパラメータを持つ中国語マルチモーダルLLMとして、印象的な指示とビデオ理解能力を示しました。ゼロショット指示理解実験は、Youku-mPLUGでの事前学習が、全体的および詳細な視覚的セマンティクスの理解、シーンテキストの認識、オープンドメイン知識の活用能力を向上させることを示しています。