翻訳付きの日次キュレーションされたAI研究論文
大規模言語モデル(LLMs)は、わずか数年で機械学習の議論において存在しない状態から遍在する存在へと変貌を遂げました。この分野の急速な進展により、残された課題や既に成果を上げている応用領域を特定することが困難になっています。本論文では、体系的に未解決の問題と成功した応用例を整理し、ML研究者がこの分野の現状を迅速に理解し、生産的になることを目指します。
2022年後半以降、ChatGPTやBardのような大規模言語モデル(LLM)が非常に注目を集め、数百万のユーザーを獲得しています。毎週数百もの新しいLLMが発表され、その多くが機械学習モデルとデータセットのリポジトリであるHugging Faceに登録されています。現在までに、約16,000のテキスト生成モデルがこのサイトにアップロードされています。LLMの大量流入を考えると、どのLLMの基盤、設定、トレーニング方法、ファミリーが人気またはトレンドとなっているかを知ることは興味深いです。しかし、利用可能な包括的なLLMインデックスは存在しません。我々は、Hugging FaceのLLMの比較的体系的な命名法を利用して、階層的クラスタリングを行い、n-グラムとTF-IDF(単語頻度-逆文書頻度)を用いてLLMのコミュニティを特定します。我々の手法は、LLMのファミリーを特定し、LLMを意味のあるサブグループに正確にクラスタリングすることに成功しています。我々は、15,821のLLMのアトラスであるConstellationをナビゲートし探索するための公開ウェブアプリケーションを提供します。Constellationは、デンドログラム、グラフ、ワードクラウド、散布図など、さまざまな視覚化を迅速に生成します。Constellationは以下のリンクで利用可能です: https://constellation.sites.stanford.edu/。
機械学習による視覚コンテンツ生成がますます主流となる時代において、生成モデルへの人間のフィードバックの統合は、ユーザー体験と出力品質の向上に大きな可能性を秘めています。本研究では、拡散ベースのテキストから画像への生成モデルにおいて、反復的な人間のフィードバックを生成プロセスに組み込む戦略を探求します。我々はFABRICを提案します。これは、広く使われているアーキテクチャに存在するセルフアテンション層を活用し、拡散プロセスを一連のフィードバック画像に条件付ける、トレーニング不要のアプローチです。本手法を厳密に評価するため、人間のフィードバックを統合した視覚生成モデルの性能を定量化する堅牢なメカニズムを提供する包括的な評価方法論を導入します。徹底的な分析を通じて、反復的なフィードバックを重ねることで生成結果が向上し、任意のユーザー選好を暗黙的に最適化することを示します。これらの知見の応用可能性は、パーソナライズされたコンテンツ作成やカスタマイズといった分野にまで広がります。
レイヤー合成は、アマチュアからプロフェッショナルまで幅広く利用されている最も一般的な画像編集ワークフローの一つです。拡散モデルの成功に触発され、私たちはレイヤー合成をレイヤー画像生成の観点から探求します。単一の画像を生成する代わりに、背景、前景、レイヤーマスク、および合成画像を同時に生成することを提案します。レイヤー画像生成を実現するために、レイヤー画像を再構築可能なオートエンコーダを訓練し、その潜在表現上で拡散モデルを学習させます。提案手法の利点の一つは、高品質な画像出力に加えて、より優れた合成ワークフローを可能にすることです。もう一つの利点は、画像セグメンテーションの別ステップで生成されるマスクと比較して、より高品質なレイヤーマスクを生成できることです。実験結果は、提案手法が高品質なレイヤー画像を生成可能であり、今後の研究のためのベンチマークを確立することを示しています。
言語モデルと視覚言語モデルは最近、人間の意図の理解、推論、シーン理解、計画的な行動など、テキスト形式での前例のない能力を示しています。本研究では、こうした能力を強化学習(RL)エージェントに組み込み、活用する方法を探ります。私たちは、言語を中核的な推論ツールとして使用するフレームワークを設計し、これがエージェントにどのように効率的な探索、経験データの再利用、スキルのスケジューリング、観察からの学習といった、従来は個別に設計されたアルゴリズムを必要としていた基本的なRLの課題に取り組むことを可能にするかを探ります。私たちの手法を、スパース報酬のシミュレーションされたロボット操作環境でテストし、ロボットが一連のオブジェクトを積み上げるタスクを実行します。探索効率とオフラインデータセットからのデータ再利用能力においてベースラインを大幅に上回る性能向上を示し、学習したスキルを新しいタスクの解決や人間の専門家のビデオの模倣に再利用する方法を実証します。
会話型AIの進歩にもかかわらず、言語モデルは多様な会話タスクを処理する上で課題に直面しており、既存の対話データセットコレクションは多様性と包括性に欠けることが多い。これらの問題に対処するため、我々はDialogStudioを紹介する:これは最も大規模で多様な対話データセットのコレクションであり、一貫した形式で統一されながらも、元の情報を保持している。我々のコレクションは、オープンドメイン対話、タスク指向対話、自然言語理解、会話型レコメンデーション、対話要約、知識基盤型対話などからのデータを網羅しており、対話研究やモデルトレーニングのための非常に豊かで多様なリソースとなっている。DialogStudioの有用性をさらに高めるため、各データセットのライセンスを特定し、選択された対話に対してドメインを意識したプロンプトを設計し、指示を意識したファインチューニングを容易にした。さらに、このデータセットコレクションを使用して会話型AIモデルを開発し、ゼロショット学習と少数ショット学習のシナリオでの実験を通じて、DialogStudioの優位性を実証した。透明性を向上させ、データセットとタスクベースの研究、および言語モデルの事前学習を支援するため、DialogStudioに関連するすべてのデータセット、ライセンス、コード、モデルをhttps://github.com/salesforce/DialogStudioで公開している。
人間の自然言語指示を解釈し、デジタルデバイスのユーザーインターフェースを直接制御することで実行するデバイス制御システムに対する関心が高まっています。本研究では、デバイス制御研究のためのデータセット「Android in the Wild (AITW)」を紹介します。このデータセットは、既存のデータセットよりも桁違いに大規模であり、デバイス操作の人間によるデモンストレーション(画面とアクションを含む)と対応する自然言語指示を含んでいます。715,000のエピソードから構成され、30,000のユニークな指示、4つのAndroidバージョン(v10-13)、8つのデバイスタイプ(Pixel 2 XLからPixel 6まで)をカバーし、画面解像度も多様です。このデータセットには、言語と視覚的コンテキストの意味的理解を必要とする多段階タスクが含まれています。このデータセットは新たな課題を提示しています:ユーザーインターフェースを通じて利用可能なアクションは、その視覚的な外観から推測する必要があります。また、単純なUI要素ベースのアクションではなく、アクション空間は精密なジェスチャー(例えば、カルーセルウィジェットを操作するための水平スクロール)で構成されています。本データセットは、デバイス制御システムのロバスト性分析(新しいタスク記述、新しいアプリケーション、新しいプラットフォームバージョンに対するシステムの性能)を促進するように構成されています。我々は2つのエージェントを開発し、データセット全体での性能を報告します。データセットはhttps://github.com/google-research/google-research/tree/master/android_in_the_wildで公開されています。
大規模言語モデル(LLM)は、従来は人間にしかできないと考えられていたクラウドソーシングタスクにおいて、人間らしい振る舞いを再現する可能性を示しています。しかし、現在の取り組みは主に単純なアトミックタスクに焦点を当てています。本研究では、LLMがより複雑なクラウドソーシングパイプラインを再現できるかどうかを探ります。その結果、現代のLLMは「人間計算アルゴリズム」においてクラウドワーカーの能力の一部をシミュレートできることがわかりましたが、成功の度合いは、リクエスタのLLM能力に対する理解、サブタスクに必要な特定のスキル、およびこれらのサブタスクを実行するための最適なインタラクションモダリティによって影響を受けます。我々は、人間とLLMの指示に対する感受性の違いを考察し、LLMに対する人間向けの安全策の重要性を強調し、人間とLLMを補完的なスキルセットで訓練する可能性について議論します。特に、クラウドソーシングパイプラインの再現は、(1) 異なるタスクにおけるLLMの相対的な強み(サブタスクでのパフォーマンスを相互比較することで)と、(2) 複雑なタスクにおけるLLMの潜在能力(タスクの一部を完了し、他の部分を人間に任せることで)を調査するための貴重なプラットフォームを提供することを示します。
現実的な人間中心のレンダリングは、コンピュータビジョンとコンピュータグラフィックスの両方において重要な役割を果たしています。アルゴリズムの面では近年急速な進展が見られていますが、既存の人間中心のレンダリングデータセットとベンチマークは、レンダリング効果にとって重要な多様性の点で乏しい状況です。研究者は通常、現在のデータセット上で限られたレンダリング問題の探索と評価に制約されており、現実世界のアプリケーションでは、異なるシナリオにわたる堅牢性が求められます。本研究では、ニューラルアクターレンダリングのための大規模で高忠実度な人間のパフォーマンスデータリポジトリであるDNA-Renderingを紹介します。DNA-Renderingはいくつかの魅力的な特徴を備えています。まず、私たちのデータセットには1500人以上の被験者、5000のモーションシーケンス、6750万フレームのデータ量が含まれています。次に、各被験者に対して豊富なアセットを提供します。2D/3D人体キーポイント、前景マスク、SMPLXモデル、衣服/アクセサリ素材、マルチビュー画像、およびビデオです。これらのアセットは、下流のレンダリングタスクにおける現在の手法の精度を向上させます。第三に、データをキャプチャするためのプロフェッショナルなマルチビューシステムを構築しました。このシステムは、最大4096 x 3000解像度、15 fps速度、厳格なカメラキャリブレーションステップを備えた60台の同期カメラを含み、タスクのトレーニングと評価のための高品質なリソースを保証します。データセットとともに、フルスケールでの大規模かつ定量的なベンチマークを提供し、新規視点合成、新規ポーズアニメーション合成、新規アイデンティティレンダリング手法の既存の進捗を評価するための複数のタスクを設定しました。本稿では、DNA-Renderingの取り組みを、人間中心のレンダリングにおける新たな観察、課題、そして将来の方向性を明らかにするものとして記述します。データセット、コード、およびベンチマークはhttps://dna-rendering.github.io/で公開されます。
適応型勾配ベースの最適化手法、特にAdamは、大規模な深層学習モデルの訓練においてその存在感を示してきた。このような最適化手法の強みは、ハイパーパラメータの選択に対してより頑健でありながら、高速な収束を示す点にある。しかし、これらの手法は非適応型の手法に比べて一般化性能が劣る傾向がある。最近の研究では、この性能差は平坦な最小値の選択に関連していることが示されている:適応型手法は損失関数のランドスケープにおいてより鋭い盆地に解を見つける傾向があり、それが一般化性能を損なう原因となっている。この問題を克服するため、我々は訓練中に重要な運動量項をバッファとして使用することで、より平坦な最小値への探索を促進する新しいメモリ拡張版Adamを提案する。直感的には、バッファの使用により、最適化手法は吸引盆地が十分に広くない場合にその外側にオーバーシュートするようになる。我々は、標準的な教師あり言語モデリングおよび画像分類タスクにおいて、本手法がAdamのいくつかのバリエーションの性能を向上させることを実験的に示す。