翻訳付きの日次キュレーションされたAI研究論文
Transformerは、ほぼすべての自然言語処理(NLP)タスクに革命をもたらしましたが、シーケンス長に対して二次的にスケールするメモリと計算の複雑さに悩まされています。一方、リカレントニューラルネットワーク(RNN)は、メモリと計算要件が線形にスケールしますが、並列化とスケーラビリティの制限により、Transformerと同じ性能を達成するのに苦労しています。本論文では、Transformerの効率的な並列化トレーニングとRNNの効率的な推論を組み合わせた新しいモデルアーキテクチャ、Receptance Weighted Key Value(RWKV)を提案します。我々のアプローチは、線形アテンションメカニズムを活用し、モデルをTransformerまたはRNNとして定式化することを可能にします。これにより、トレーニング中に計算を並列化し、推論中に計算とメモリの複雑さを一定に保ち、数百億のパラメータにスケールする初の非Transformerアーキテクチャを実現しました。実験結果から、RWKVは同規模のTransformerと同等の性能を発揮することが明らかになり、将来の研究においてこのアーキテクチャを活用してより効率的なモデルを作成できる可能性が示唆されています。本研究は、シーケンス処理タスクにおける計算効率とモデル性能のトレードオフを調和させるための重要な一歩を提示します。
大規模言語モデル(LLM)の最近の進展は目覚ましいものがあります。しかし、これらのモデルは時として、事実の捏造、欠陥のあるコードの生成、または攻撃的で有害なコンテンツの作成といった、一貫性のない問題のある行動を示すことがあります。これらのモデルとは異なり、人間は通常、外部ツールを利用して初期のコンテンツを検証し、洗練させます。例えば、検索エンジンを使って事実確認を行ったり、コードインタプリタを使ってデバッグを行ったりします。この観察に着想を得て、我々は「CRITIC」と呼ばれるフレームワークを導入しました。このフレームワークは、本質的に「ブラックボックス」であるLLMが、人間がツールと相互作用するのと同様の方法で、自身の出力を検証し、段階的に修正することを可能にします。具体的には、初期の出力から始めて、CRITICは適切なツールと相互作用してテキストの特定の側面を評価し、その検証プロセス中に得られたフィードバックに基づいて出力を修正します。自由形式の質問応答、数学的プログラム合成、および有害性の低減を含む包括的な評価により、CRITICがLLMのパフォーマンスを一貫して向上させることが実証されています。同時に、我々の研究は、LLMの継続的な自己改善を促進する上で、外部フィードバックの重要性を強調しています。
テキスト駆動型拡散モデルは画像生成において前例のない能力を解き放ったが、その動画版は時間的モデリングの過剰なトレーニングコストにより依然として遅れを取っている。トレーニング負荷に加えて、生成された動画は特に長尺動画合成において、外観の不整合や構造的なちらつきに悩まされている。これらの課題に対処するため、我々は自然で効率的なテキストから動画への生成を可能にするトレーニング不要のフレームワーク「ControlVideo」を設計した。ControlVideoはControlNetを基に、入力されたモーションシーケンスから大まかな構造的一貫性を活用し、動画生成を改善するための3つのモジュールを導入している。まず、フレーム間の外観の一貫性を確保するため、ControlVideoはセルフアテンションモジュールに完全なクロスフレーム相互作用を追加する。次に、ちらつき効果を軽減するため、交互フレームにフレーム補間を適用するインターレースフレームスムーザーを導入する。最後に、長尺動画を効率的に生成するため、各短いクリップを全体的な一貫性を持って個別に合成する階層的サンプラーを利用する。これらのモジュールを備えたControlVideoは、広範なモーションプロンプトペアにおいて定量的および定性的に最先端の技術を上回る。特に、効率的な設計のおかげで、NVIDIA 2080Tiを使用して短尺および長尺動画を数分以内に生成することができる。コードはhttps://github.com/YBYBZhang/ControlVideoで公開されている。
自律的なウェブナビゲーションの進展は、オンライン強化学習を通じた数十億もの探索的相互作用への依存、および豊富なドメイン外データからの一般化を活用することを困難にするドメイン固有のモデル設計によって妨げられてきた。本研究では、視覚言語基盤モデルを用いたウェブエージェントのデータ駆動型オフライントレーニングを検討する。ウェブページのスクリーンショットとHTMLページの両方を観察し、クリックやタイプなどのウェブナビゲーションアクションを出力する命令追従型マルチモーダルエージェント、WebGUMを提案する。WebGUMは、命令ファインチューニングされた言語モデルとビジョントランスフォーマーを大規模なデモンストレーションコーパスで共同でファインチューニングすることによってトレーニングされる。この手法が、エージェントのグラウンディングされた視覚知覚、HTML理解、および多段階推論の能力を向上させ、従来の研究を大幅に上回ることを実証的に示す。MiniWoBベンチマークでは、従来の最良のオフライン手法を31.9%以上改善し、オンラインファインチューニングされたSoTAに近づいている。WebShopベンチマークでは、30億パラメータのモデルが既存のSoTAであるPaLM-540Bを上回る性能を達成する。また、トレーニング済みモデルを使用して347Kの高品質なデモンストレーションを収集し、これは従来の研究の38倍の規模であり、今後の研究を促進するために公開する。
拡散モデルは、対数尤度目的関数の近似を用いて訓練される柔軟な生成モデルの一種です。しかし、拡散モデルのほとんどの使用例は尤度を重視するのではなく、人間が知覚する画像品質や薬剤の有効性といった下流の目的に関心を持っています。本論文では、このような目的に対して拡散モデルを直接最適化するための強化学習手法を調査します。ノイズ除去を多段階の意思決定問題として定式化することで、報酬重み付き尤度アプローチよりも効果的なポリシー勾配アルゴリズムのクラスを可能にすることを説明します。これをノイズ除去拡散ポリシー最適化(DDPO)と呼びます。実験的に、DDPOはテキストから画像への拡散モデルを、プロンプトでは表現が難しい画像圧縮率や、人間のフィードバックに基づく美的品質といった目的に適応させることができます。最後に、DDPOが視覚言語モデルからのフィードバックを用いて、追加のデータ収集や人間によるアノテーションを必要とせずに、プロンプトと画像の整合性を改善できることを示します。
近年、画像生成の性能は飛躍的に向上しており、その中心的な役割を担っているのが拡散モデルです。高品質な画像を生成するこれらのモデルは、主にテキスト記述を条件として使用しています。これにより、「他のモダリティを条件としてこれらのモデルをどのように適用できるか?」という疑問が生じます。本論文では、テキストから画像を生成するために訓練された潜在拡散モデルを活用し、音声記録を条件として画像を生成する新しい手法を提案します。提案手法では、事前訓練された音声エンコーディングモデルを使用して音声を新しいトークンにエンコードします。このトークンは、音声とテキスト表現の間の適応層と見なすことができます。このようなモデリングパラダイムでは、訓練可能なパラメータ数が少なくて済むため、提案手法は軽量な最適化に適しています。結果は、客観的および主観的メトリクスを考慮すると、提案手法が評価されたベースライン手法よりも優れていることを示しています。コードとサンプルは以下で利用可能です:https://pages.cs.huji.ac.il/adiyoss-lab/AudioToken。
Differentiable Search Indexによって広まった新しいパラダイムである生成型検索は、従来の情報検索問題をシーケンス・ツー・シーケンスモデリングタスクとして再定義し、外部インデックスを廃して単一のTransformer内に文書コーパス全体をエンコードする。生成型検索の効果を向上させるために多くの異なるアプローチが提案されているが、これまで10万規模の文書コーパスでのみ評価されてきた。本研究では、様々な規模のコーパスにおける生成型検索技術の初の実証研究を行い、最終的に8.8MのパッセージからなるMS MARCOパッセージランキングタスク全体にスケールアップし、最大110億パラメータのモデルサイズを評価した。数百万のパッセージに生成型検索をスケールする際にいくつかの知見を明らかにした。特に、インデックス作成時に合成クエリを文書表現として使用することの重要性、計算コストを考慮した場合の既存のアーキテクチャ変更の非効率性、および検索性能に関してモデルパラメータを単純にスケールすることの限界である。生成型検索が小規模コーパスにおいて最先端のデュアルエンコーダと競合することを確認した一方で、数百万のパッセージにスケールすることは依然として重要な未解決の課題である。これらの知見が、生成型検索の現状を明確にし、特有の課題を浮き彫りにし、新しい研究の方向性を刺激するためにコミュニティにとって価値があると信じている。
音声処理の領域において、転移学習(Transfer Learning)は自己教師あり学習(Self-Supervised Learning)やゼロショット学習(Zero-Shot Learning)技術の台頭を促進してきた。これらのアプローチにより、多様なタスクに対応可能で、最先端の性能を発揮する汎用モデルの開発が進められている。しかし、現在のモデルは本質的に、音声キャプショニング(Audio Captioning)や音声質問応答(Audio Question & Answering)といったオープンエンドタスクに必要な言語を生成する能力を欠いている。本論文では、Pengiという新しい音声言語モデルを提案する。Pengiは、すべての音声タスクをテキスト生成タスクとして再構築することで転移学習を活用する。入力として音声記録とテキストを受け取り、自由形式のテキストを出力として生成する。入力音声は、音声エンコーダによって連続的な埋め込みのシーケンスとして表現される。テキストエンコーダも同様に、対応するテキスト入力を処理する。両方のシーケンスは、事前学習済みの凍結された言語モデルを促すためのプレフィックスとして結合される。Pengiの統一されたアーキテクチャにより、追加のファインチューニングやタスク固有の拡張なしに、オープンエンドタスクとクローズドエンドタスクの両方を実行できる。22の下流タスクで評価した結果、本アプローチはそのうちのいくつかで最先端の性能を達成した。我々の結果は、言語モデルと音声モデルを接続することが、汎用音声理解に向けた重要な一歩であることを示している。
近年の大規模言語モデルの事前学習における急速な進展は、次のトークン予測やスパン破損といった自己教師あり言語モデリング目的関数の使用に依存してきました。一方で、機械翻訳システムの訓練は主に、ソース言語とターゲット言語間の整列データを必要とするクロスリンガルな教師あり学習によって行われています。本研究では、自己教師あり言語モデリング目的関数と教師あり機械翻訳目的関数を混合し、事前学習中にクロスリンガルな並列データを含めることで、文脈内学習能力が向上したモデルが得られることを実証します。事前学習は非常にリソース集約的なプロセスであり、両目的関数間の最適な混合比率をグリッドサーチで探索することは現実的ではありません。そこで、事前学習中にこの混合比率を学習するためのシンプルかつ効果的な戦略を提案します。
大規模言語モデル(LLM)は、その訓練データの大部分を記憶していることが知られています。この記憶された内容の一部は、単にモデルに問い合わせることで抽出可能であることが示されており、これはプライバシーリスクをもたらします。本研究では、プロンプトチューニングを用いてLLMにおける記憶内容の抽出率を制御する新たなアプローチを提案します。抽出率を増加させる攻撃と減少させる防御に対応する、2つのプロンプト訓練戦略を提示します。GPT-Neoファミリのモデルを用いて公開ベンチマークで実験を行い、本手法の有効性を実証します。1.3BパラメータのGPT-Neoモデルにおいて、我々の攻撃手法はベースラインと比較して抽出率を9.3パーセンテージポイント向上させました。防御手法は、ユーザー指定のハイパーパラメータによって異なるプライバシーと有用性のトレードオフを実現可能です。ベースラインと比較して最大97.7%の抽出率低減を達成し、その際のパープレキシティの増加は16.9%でした。
大規模言語モデル(LLM)は、few-shotプロンプティングを介して、ベンチマーキング、ファインチューニング、その他のユースケース向けに、より小さく洗練されたデータセットを生成するために使用できます。しかし、これらのデータセットを理解し評価することは困難であり、LLM生成データの失敗モードはまだ十分に理解されていません。具体的には、データは驚くべき方法で繰り返しがちであり、意味的だけでなく、構文的および語彙的にも繰り返されることがあります。本論文では、LLM生成データセットの構文的多様性を理解し分析するための新しいインタラクティブ可視化ツールであるLinguisticLensを紹介します。LinguisticLensは、構文、語彙、意味の軸に沿ってテキストをクラスタリングします。テキストデータセットの階層的可視化をサポートし、ユーザーが迅速に概要をスキャンし、個々の例を検査できるようにします。ライブデモはshorturl.at/zHOUVで利用可能です。
Transformerベースの一方向性言語モデルからの表現は、自然言語に対する脳の反応を予測するのに有効であることが知られています。しかし、言語モデルと脳を比較した研究のほとんどは、GPT-2または同程度のサイズの言語モデルを使用しています。本研究では、OPTやLLaMAファミリーなどの大規模なオープンソースモデルが、fMRIを用いて記録された脳の反応を予測するのに優れているかどうかを検証しました。他の文脈でのスケーリング結果と同様に、125Mから30Bパラメータのモデルにおいて、脳の予測性能がモデルサイズに対して対数線形的にスケールし、3名の被験者におけるテストセットとの相関で測定されるエンコーディング性能が約15%向上することがわかりました。fMRIトレーニングセットのサイズをスケールさせた場合も、同様の対数線形的な挙動が観察されました。また、HuBERT、WavLM、Whisperを使用した音響エンコーディングモデルのスケーリング特性を評価し、モデルサイズに伴う同様の改善が見られました。これらの大規模で高性能なエンコーディングモデルに対するノイズ上限分析では、楔前部や高次聴覚皮質などの脳領域において、理論上の最大値に近づいていることが示されました。これらの結果は、モデルとデータの両方のスケールを増加させることで、脳の言語処理を非常に効果的にモデル化し、科学的理解を深めるだけでなく、デコーディングなどの応用を可能にすることを示唆しています。
ステレオタイプのベンチマークデータセットは、NLPモデルにおける人々のグループに関する社会的ステレオタイプを検出し、軽減するために重要です。しかし、既存のデータセットはサイズとカバレッジが限られており、主に西洋社会で普及しているステレオタイプに制限されています。これは、言語技術が世界中で普及するにつれて特に問題となります。このギャップを埋めるために、我々はSeeGULLを提案します。SeeGULLは、PaLMやGPT-3などの大規模言語モデルの生成能力を活用し、世界中の多様な評価者プールを利用して社会におけるそれらのステレオタイプの普及を検証した、広範なカバレッジを持つステレオタイプデータセットです。SeeGULLは英語で、6大陸にまたがる8つの地政学的地域にわたる178カ国のアイデンティティグループ、および米国とインドの州レベルのアイデンティティに関するステレオタイプを含んでいます。また、異なるステレオタイプに対する詳細な不快度スコアを含め、それらの世界的な差異を示します。さらに、地域に住むアノテーターと北米に基づくアノテーターによる同じグループに関する比較注釈を含め、地域内のグループに関するステレオタイプが北米で普及しているものと異なることを示します。コンテンツ警告:本論文には不快と感じられる可能性のあるステレオタイプの例が含まれています。
特にソフトウェアエンジニアリング(SE)タスクにおける自動化の到来は、理論から現実へと移行してきた。多くの学術論文が、プロジェクト管理、モデリング、テスト、開発などの領域における課題に対処するために人工知能(AI)が成功裏に適用された事例を記録している。最近の革新として、ChatGPTというML(機械学習)を組み込んだチャットボットが導入され、開発者向けのプログラミングコード生成やテスター向けのソフトウェアテスト戦略策定に熟練したリソースとして注目されている。AIベースの計算が生産性を向上させ、ソフトウェア開発においてソフトウェアエンジニアを代替する可能性があると推測されているものの、これを検証するための実証的な証拠は現時点で不足している。さらに、AIシステムの精度向上が主に焦点とされる一方で、エネルギー効率、脆弱性、公平性(すなわち人間のバイアス)、安全性といった非機能要件はしばしば十分な注意を払われていない。本論文は、ソフトウェアエンジニアとAIベースのソリューションをさまざまな評価基準に基づいて包括的に比較することが、人間と機械の協力を促進し、AIベースの手法の信頼性を高め、タスクの適性を人間またはAIのどちらに適しているかを理解する上で重要であると主張する。さらに、協調作業構造や人間をループに組み込んだプロセスの効果的な実装を容易にする。本論文では、ソフトウェアエンジニアとChatGPTのようなAIシステムのパフォーマンスを異なる評価指標に基づいて対比する実証的な調査を実施する。この実証研究には、ChatGPTが生成したコードと、開発者が作成しLeetcodeにアップロードしたコードを評価する事例が含まれる。
選択的な情報ニーズを定式化すると、集合演算(積集合、和集合、差集合など)を暗黙的に指定するクエリが生成されます。例えば、「シギではないシギ科の鳥」や「イギリスで撮影されたSF映画」といった検索が該当します。このような情報ニーズを満たす検索システムの能力を研究するため、私たちはQUESTというデータセットを構築しました。QUESTは、ウィキペディアの文書に対応するエンティティの集合にマッピングされる、暗黙的な集合演算を含む3357件の自然言語クエリから成ります。このデータセットは、クエリ内の複数の制約を文書内の対応する証拠と照合し、さまざまな集合演算を正しく実行する能力をモデルに要求します。 データセットは、ウィキペディアのカテゴリ名を利用して半自動的に構築されました。クエリは個々のカテゴリから自動的に作成された後、クラウドワーカーによって言い換えられ、自然さと流暢さが検証されました。また、クラウドワーカーは文書に基づいてエンティティの関連性を評価し、クエリの制約が文書テキストのどの部分に起因するかを特定しました。いくつかの現代的な検索システムを分析した結果、このようなクエリに対してしばしば苦戦することが明らかになりました。特に否定や接続を含むクエリは難易度が高く、これらの演算が組み合わさるとさらに困難が増します。
大規模言語モデル(LLM)の出現は、自然言語処理に大きな影響を与え、さまざまなタスクで卓越した結果を示してきました。本研究では、「内省的ヒント」を用いて、LLMが意思決定を自己最適化することを促進します。軌跡を内省的に検討することで、LLMは簡潔で価値あるヒントを生成し、そのポリシーを洗練させます。私たちの手法は、エージェントの過去の経験から学ぶこと、専門家のデモンストレーションを統合すること、多様なゲームにわたって一般化することという3つの重要なシナリオを考慮することで、少数ショット学習およびゼロショット学習の状況におけるエージェントのパフォーマンスを向上させます。重要なのは、LLMのパラメータを微調整するのではなく、プロンプトを調整して前述の3つの状況からの洞察を一般化することです。私たちのフレームワークは、LLMをコンテキスト内意思決定に活用する利点を支持し、強調します。TextWorldにおける100以上のゲームを対象とした実験は、私たちのアプローチの優れたパフォーマンスを示しています。
大規模言語モデル(LLM)は、オープンドメインタスクにおいて人気を集め、顕著な成果を上げてきました。しかし、特定の知識が含まれていないため、実際の産業分野におけるドメイン固有のシナリオでの性能は平均的です。この問題は広く注目されていますが、関連するベンチマークはほとんど存在しません。本論文では、Microsoft製品と顧客が遭遇するIT技術問題に関する質問応答(QA)データセット「MSQA」を提供します。このデータセットには、一般的なLLMでは利用できない産業クラウド固有のQA知識が含まれており、LLMのドメイン固有能力を向上させるための手法を評価するのに適しています。さらに、LLMが得意としないドメイン固有タスクにおいて、より優れた性能を発揮できる新しいモデルインタラクションパラダイムを提案します。広範な実験により、我々のモデル融合フレームワークに従ったアプローチが、一般的に使用されるLLMと検索手法を組み合わせた方法を上回ることが実証されています。
本論文では、設計問題における反事実的(counterfactual)最適化のための新手法「Multi-Objective Counterfactuals for Design (MCD)」を提案する。反事実的とは、異なる意思決定や選択を導く仮想的な状況を指す。本論文では、反事実的探索問題を設計推奨ツールとして再定義し、設計の変更点を特定することで機能的な性能向上を図る手法を提示する。MCDは、設計問題において重要な多目的クエリをサポートし、反事実的探索とサンプリングプロセスを分離することで効率を向上させ、目的間のトレードオフの可視化を容易にする点で、既存の反事実的探索手法を改善している。本論文では、まず2次元のテストケースを用いてMCDのコア機能を実証し、続いて自転車設計の3つのケーススタディを通じて、現実世界の設計問題におけるMCDの有効性を示す。最初のケーススタディでは、MCDがクエリ設計に対する変更を推奨し、重量削減や構造安全係数の向上といった機能的な性能を大幅に改善できることを示す。2番目のケーススタディでは、MCDが事前学習済みの言語モデルと連携し、主観的なテキストプロンプトに基づいて設計変更を効果的に提案できることを実証する。最後に、著者らはMCDに、ターゲット画像とテキストプロンプトへの類似性を高めつつ、重量を削減し構造性能を向上させるという複雑なマルチモーダルクエリを課し、MCDの性能を示す。全体として、MCDは仮想的な設計変更とその複数の設計目的への影響を探ることで、実務者や設計自動化研究者が「もしも」の問いに答えるための貴重な推奨を提供する可能性を秘めている。本論文で使用したコード、テスト問題、データセットはdecode.mit.edu/projects/counterfactuals/で公開されている。
発達心理学者たちは数十年にわたり、乳幼児や子供の知能と知識をテストし、重要な概念や能力の起源を追跡する実験を考案してきた。さらに、発達心理学における実験手法は、特定の行動の基盤となる認知能力を識別するために慎重に設計されている。我々は、子供の発達における古典的な実験を用いることが、一般的なAIモデル、特に大規模言語モデル(LLM)の計算能力を探るための特に効果的な方法であると提案する。第一に、過去の経験を制御するための新規刺激の使用や、子供が単純な連想を使用しているかどうかを判断するための対照条件など、発達心理学の方法論的手法は、LLMの能力を評価するのにも同様に有用である。並行して、この方法でLLMをテストすることで、テキストにエンコードされた情報が特定の応答を可能にするのに十分であるか、またはそれらの応答が物理世界の探索からの情報など、他の種類の情報に依存しているかどうかを知ることができる。本研究では、Googleの大規模言語モデルであるLaMDAの能力を評価するために、古典的な発達実験を適応させた。我々は、GPTなどの他の言語モデルを評価するために使用できる新しいLLM応答スコア(LRS)メトリックを提案する。LaMDAは、社会的理解に関する実験において、子供たちと類似した適切な応答を生成することがわかった。これは、これらの領域の知識が言語を通じて発見されることの証拠を提供しているかもしれない。一方で、LaMDAの初期の物体や行動の理解、心の理論、特に因果推論タスクにおける応答は、幼い子供たちのそれとは大きく異なっており、これらの領域はより現実世界での自己主導的な探索を必要とし、単に言語入力のパターンから学ぶことはできないことを示しているかもしれない。