翻訳付きの日次キュレーションされたAI研究論文
現代のレコメンダーシステムは、大規模な検索モデルを活用しており、通常2段階のプロセスで構成されています。まず、クエリと候補を同じ空間に埋め込むためのデュアルエンコーダーモデルを訓練し、その後、クエリの埋め込みに基づいてトップ候補を選択するための近似最近傍探索(ANN)を行います。本論文では、新しい単一段階のパラダイムを提案します。それは、ターゲット候補の識別子を一連のフェーズで自己回帰的にデコードする生成型検索モデルです。これを行うために、各アイテムにランダムに生成された原子IDを割り当てる代わりに、セマンティックIDを生成します。セマンティックIDは、各アイテムの一意の識別子として機能する、意味的に意味のあるコードワードのタプルです。これらのコードワードを生成するために、RQ-VAEと呼ばれる階層的手法を使用します。すべてのアイテムのセマンティックIDを取得した後、Transformerベースのシーケンス・ツー・シーケンスモデルを訓練して、次のアイテムのセマンティックIDを予測します。このモデルは、次のアイテムを識別するコードワードのタプルを自己回帰的に直接予測するため、生成型検索モデルと見なすことができます。私たちは、この新しいパラダイムで訓練されたレコメンダーシステムが、Amazonデータセットにおいて現在のSOTAモデルが達成した結果を改善することを示します。さらに、階層的なセマンティックIDと組み合わせたシーケンス・ツー・シーケンスモデルが、より良い一般化を提供し、その結果、レコメンデーションにおけるコールドスタートアイテムの検索を改善することを実証します。
深層ニューラルネットワークは教師あり学習タスクにおいて顕著な性能を発揮するが、大量のラベル付きデータを必要とする。自己教師あり学習はこれに代わるパラダイムを提供し、明示的なラベルなしでデータから学習することを可能にする。情報理論は、深層ニューラルネットワークの理解と最適化において重要な役割を果たしてきた。特に、情報ボトルネック原理は、教師あり設定において圧縮と関連情報の保存のトレードオフを最適化するために適用されてきた。しかし、自己教師あり学習における最適な情報目的関数は未だ明確ではない。本論文では、情報理論の観点から自己教師あり学習の様々なアプローチをレビューし、自己教師あり情報理論学習問題を形式化する統一フレームワークを提示する。既存研究を一貫したフレームワークに統合し、最近の自己教師あり手法を検証し、研究機会と課題を特定する。さらに、情報理論的量とその推定器の経験的測定について議論する。本論文は、情報理論、自己教師あり学習、深層ニューラルネットワークの交差点に関する包括的なレビューを提供する。
ChatGPTやGPT-4のような最新の大規模言語モデルは、人間の入力に対して高品質な応答を生成できることから、大きな注目を集めています。ChatGPTとGPT-4は一般的なテキストコーパスで広範にテストされ、その印象的な能力が示されていますが、金融コーパスに焦点を当てた研究はまだ行われていません。本研究では、このギャップを埋めるため、ChatGPTとGPT-4がゼロショットまたは少数ショット設定において、典型的な金融テキスト分析問題のソルバーとしての可能性を検証します。具体的には、5つの異なる金融テキストデータセットを用いて、4つの代表的なタスクにおけるそれらの能力を評価します。予備調査の結果、ChatGPTとGPT-4は、ドメイン固有の知識が要求される金融固有表現認識(NER)や感情分析などのタスクでは苦戦する一方、数値推論タスクでは優れた性能を発揮することがわかりました。我々は、ChatGPTとGPT-4の現行バージョンの強みと限界を報告し、それらを最先端のファインチューニングモデルやドメイン固有の事前学習済み生成モデルと比較します。実験を通じて質的な研究を行い、既存モデルの能力を理解し、さらなる改善を促進することを目指します。
近年の一連の研究において、物体中心のアーキテクチャが視覚領域における教師なしシーン分解に適していることが示されてきました。これらの手法に着想を得て、本論文では音声領域におけるブラインド音源分離のためのスロット中心の生成モデルであるAudioSlotsを提案します。AudioSlotsは、順序不変のエンコーダネットワークとデコーダネットワークを用いて構築されています。Transformerアーキテクチャに基づくエンコーダネットワークは、混合音声スペクトログラムを順序のない独立した音源埋め込みの集合にマッピングすることを学習します。空間ブロードキャストデコーダネットワークは、音源埋め込みから音源スペクトログラムを生成することを学習します。順序不変の損失関数を用いて、モデルをエンドツーエンドで学習させます。Libri2Mix音声分離における結果は、このアプローチが有望であることを示す概念実証となります。本手法の結果と限界について詳細に議論し、さらに限界を克服するための潜在的な方法と今後の研究方向性について概説します。
拡散モデルの画像生成における顕著な成功を受けて、最近の研究では、条件付け入力を基にサンプリングプロセスを適切に制約することで、教師なしの方法で多くの逆問題に対処する印象的な能力も示されています。これに触発され、本論文では、単一画像からの高精度な3D顔BRDF再構成のための事前分布として拡散モデルを利用する初のアプローチを提案します。まず、高品質な顔反射率(拡散反射率、鏡面反射率、法線)のUVデータセットを活用し、さまざまな照明設定下でレンダリングして自然なRGBテクスチャをシミュレートし、その後、レンダリングされたテクスチャと反射率成分を連結したペアで無条件拡散モデルを学習します。テスト時には、与えられた画像に3Dモーファブルモデルをフィットさせ、部分的なUVテクスチャとして顔を展開します。拡散モデルからサンプリングしながら、観測されたテクスチャ部分をそのまま保持することで、モデルは自己遮蔽領域だけでなく未知の反射率成分も、単一のノイズ除去ステップのシーケンスでインペイントします。既存の手法とは対照的に、入力画像から直接観測テクスチャを取得するため、より忠実で一貫性のある反射率推定が可能になります。一連の定性的および定量的な比較を通じて、テクスチャ補完および反射率再構成タスクの両方で優れた性能を示します。
ビデオコンテンツの普及に伴い、新しいビデオコンテンツを生成するための効率的で柔軟なニューラルネットワークベースのアプローチが求められています。本論文では、ゼロショットのテキストからビデオ生成とControlNetを組み合わせた新しいアプローチを提案し、これらのモデルの出力を改善します。本手法は、複数のスケッチフレームを入力として受け取り、これらのフレームの流れに一致するビデオ出力を生成します。Text-to-Video Zeroアーキテクチャを基盤とし、ControlNetを組み込むことで追加の入力条件を可能にします。まず、入力されたスケッチ間のフレームを補間し、その後、新しい補間フレームビデオを制御技術として使用してText-to-Video Zeroを実行することで、ゼロショットのテキストからビデオ生成の利点とControlNetが提供する堅牢な制御の両方を活用します。実験により、本手法が高品質で非常に一貫性のあるビデオコンテンツを生成し、ユーザーが意図したビデオ内の被写体の動きにより正確に一致することを実証しています。さらに、デモビデオ、プロジェクトウェブサイト、オープンソースのGitHubリポジトリ、Colabプレイグラウンドを含む包括的なリソースパッケージを提供し、提案手法のさらなる研究と応用を促進します。
ロボットが物理的な支援を効果的にパーソナライズするためには、将来のシナリオにも一般的に再適用可能なユーザーの好みを学習する必要があります。本研究では、物を拾って片付けることで部屋を整理するロボットを用いた家庭内清掃のパーソナライゼーションを探求します。主要な課題は、各物を置く適切な場所を決定することです。なぜなら、人々の好みは個人の趣味や文化的背景によって大きく異なる可能性があるからです。例えば、ある人はシャツを引き出しに収納するのを好むかもしれませんが、別の人は棚に置くのを好むかもしれません。私たちは、特定の人物との事前のやり取りから、わずかな例だけでそのような好みを学習できるシステムを構築することを目指しています。ロボットが言語ベースの計画と知覚を大規模言語モデル(LLM)の少数ショット要約能力と組み合わせることで、将来のインタラクションにも広く適用可能な一般化されたユーザー好みを推論できることを示します。このアプローチにより、迅速な適応が可能となり、ベンチマークデータセットにおける未見のオブジェクトに対して91.2%の精度を達成しました。また、TidyBotと呼ばれる実世界のモバイルマニピュレータでこのアプローチを実証し、実世界のテストシナリオで85.0%のオブジェクトを片付けることに成功しました。
近年、大規模な事前学習済み言語モデル(LLM)は、少数の例から指示に従い新規タスクを遂行する能力を示してきた。このような文脈内の例を通じてLLMをパラメータ化する可能性は、ファインチューニングよりもはるかに低コストでその能力を拡大する。我々はこの論理をさらに拡張し、LLMをアルゴリズムやプログラムに組み込むことでその能力をさらに拡張する手法を提案する。このアプローチの利点を示すため、証拠に基づく質問応答の具体例を提示する。アルゴリズム的なアプローチにより、ファインチューニングなしでチェーン・オブ・ソートのベースラインを6.4%改善した。さらに、この視点から最近の研究を紹介し、標準的なアプローチとの比較における利点と欠点について議論する。
ニューラルラジアンスフィールド(NeRF)の最適化とレンダリングは、ボリュームレンダリングに必要な膨大なサンプル数のため、計算コストが高い。最近の研究では、手法を加速するための代替サンプリング手法が取り入れられているが、それらはしばしば研究の焦点とはならない。本論文では、複数のサンプリング手法を調査・比較し、透過率推定器の統一概念の下で、改善されたサンプリングがNeRFのバリエーション全般に適用可能であることを示す。今後の実験を容易にするため、我々はNerfAccというPythonツールボックスを開発した。これは、高度なサンプリング手法をNeRF関連の手法に組み込むための柔軟なAPIを提供するものである。既存のコードベースに最小限の修正を加えるだけで、いくつかの最近のNeRF手法の学習時間を1.5倍から20倍短縮できることを示し、その柔軟性を実証する。さらに、Instant-NGPのような高度にカスタマイズされたNeRFも、NerfAccを使用してネイティブのPyTorchで実装できる。
コード実行は、プログラミング言語の意味論における基本的な側面であり、コードの正確な振る舞いを反映するものです。しかし、コード知能のための事前学習済みモデルのほとんどは、実行トレースを無視し、ソースコードと構文構造のみに依存しています。本論文では、事前学習済みモデルがコード実行をどの程度理解し実行できるかを調査します。我々は、変異ベースのデータ拡張技術を開発し、大規模で現実的なPythonデータセットとコード実行タスクを作成し、Codexなどの既存モデルに挑戦します。次に、コード実行の事前学習とカリキュラム学習を活用して意味理解を強化するTransformerモデルであるCodeExecutorを提案します。我々はCodeExecutorをコード実行において評価し、その有望な性能と限界を示します。また、ゼロショットのコード間検索やテキストからコード生成といったコード知能タスクにおける潜在的な利点を実証します。我々の分析は、コード実行のための事前学習済みモデルの学習能力と汎化能力に関する洞察を提供します。
ウェブページは、言語および視覚-言語タスクにおいて豊富なリソースとなってきました。しかし、ウェブページの断片のみが保持されることが一般的です:画像とキャプションのペア、長文記事、または生のHTMLであり、これらすべてが一箇所にまとめられることはありませんでした。その結果、ウェブページタスクはほとんど注目されておらず、構造化された画像-テキストデータは十分に活用されていません。マルチモーダルなウェブページ理解を研究するために、私たちはWikipedia Webpage 2M(WikiWeb2M)スイートを導入します。これは、ページ内で利用可能な画像、テキスト、および構造データの完全なセットを保持する初めてのデータセットです。WikiWeb2Mは、ページ記述生成、セクション要約、文脈に基づく画像キャプション生成などのタスクに使用できます。