翻訳付きの日次キュレーションされたAI研究論文
本論文では、ガウススプラットを用いてレンダリングされた人体向けの最初の3D制御可能モデルであるDrivable 3D Gaussian Avatars (D3GA)を提案します。現在のフォトリアリスティックなドライバブルアバターは、学習時に正確な3D登録を必要とするか、テスト時に高密度な入力画像を必要とするか、あるいはその両方を必要とします。また、ニューラルラジアンスフィールドに基づくものは、テレプレゼンスアプリケーションにとって実用的でないほど遅い傾向があります。本研究では、最近発表された3D Gaussian Splatting (3DGS)技術を活用し、高密度で較正されたマルチビュービデオを入力として、リアルタイムフレームレートでリアルな人体をレンダリングします。これらのプリミティブを変形させるために、一般的に使用されるポイント変形手法である線形ブレンドスキニング(LBS)から離れ、古典的な体積変形手法であるケージ変形を使用します。その小さなサイズを考慮し、これらの変形を通信アプリケーションに適した関節角度とキーポイントで駆動します。多様な体型、衣服、動きを持つ9人の被験者に対する実験では、同じ学習データとテストデータを使用した場合、最先端の手法よりも高品質な結果を得ました。
単一の入力画像から、一貫性のある高解像度の外観を持つ人物の360度ビューを生成する手法を提案する。NeRFやその派生手法は通常、異なる視点からの動画や画像を必要とする。単眼入力を扱う既存手法の多くは、教師データとしての3Dスキャンに依存するか、3D一貫性を欠いている。最近の3D生成モデルは3D一貫性のある人物のデジタル化の可能性を示しているが、これらの手法は多様な服装の外観にうまく一般化せず、結果としてフォトリアルさに欠ける。既存研究とは異なり、我々は一般的な画像合成タスクで事前学習された高容量の2D拡散モデルを、衣服を着た人物の外観事前分布として活用する。入力画像の人物の同一性を保ちつつ、より良い3D一貫性を達成するために、シルエットと表面法線を条件とした形状誘導拡散を用いて、欠損領域を補完しながら複数の視点を段階的に合成する。その後、これらの合成されたマルチビュー画像を逆レンダリングによって融合し、与えられた人物の完全なテクスチャ付き高解像度3Dメッシュを取得する。実験結果から、本手法が従来手法を上回り、単一画像から複雑なテクスチャを持つ多様な衣服を着た人物のフォトリアルな360度合成を実現することが示された。
我々はDMV3Dを提案する。これは、トランスフォーマーベースの3D大規模再構成モデルを用いてマルチビュー拡散をノイズ除去する新しい3D生成手法である。我々の再構成モデルはtriplane NeRF表現を組み込んでおり、NeRF再構成とレンダリングを通じてノイズの多いマルチビュー画像をノイズ除去し、単一A100 GPU上で約30秒のシングルステージ3D生成を実現する。DMV3Dは、3Dアセットにアクセスすることなく、画像再構成損失のみを用いて、高度に多様なオブジェクトの大規模マルチビュー画像データセットで学習される。我々は、未見のオブジェクト部分の確率的モデリングが必要とされる単一画像再構成問題において、シャープなテクスチャを持つ多様な再構成を生成するための最先端の結果を示す。また、従来の3D拡散モデルを凌駕する高品質なテキストから3D生成の結果も示す。プロジェクトウェブサイトは以下: https://justimyhxu.github.io/projects/dmv3d/
オーディオ拡散モデルは多様な音声を合成することが可能です。既存のモデルでは、波形を再構築するために潜在空間で動作し、カスケード型の位相回復モジュールを使用することが一般的です。しかし、このアプローチでは高忠実度の音声生成に課題が生じます。本論文では、スペクトログラム領域における拡散モデルフレームワーク「Elucidated Diffusion Models (EDM)」に基づく生成モデル「EDMSound」を提案します。効率的な決定論的サンプラーを組み合わせることで、DCASE2023フォーリー音生成ベンチマークにおいて、わずか10ステップでトップレベルのベースラインと同等のFr\'echet Audio Distance (FAD)スコアを達成し、50ステップでは最先端の性能を実現しました。また、拡散モデルに基づく音声生成モデルが、トレーニングデータと高い知覚的類似性を持つサンプルを生成しやすいという潜在的な課題を明らかにしました。プロジェクトページ: https://agentcooper2002.github.io/EDMSound/
対話型ロールプレイングゲーム(RPG)には、強力なストーリーテリングが求められます。これらの物語は、作成に数年を要することもあり、通常は大規模なクリエイティブチームが関与します。本研究では、大規模生成テキストモデルがこのプロセスを支援する可能性を示します。GRIMは、ゲーム向けのグラフベースのインタラクティブな物語可視化システムのプロトタイプであり、デザイナーが提供する高レベルの物語の説明と制約に合致する分岐ストーリーラインを含む豊かな物語グラフを生成します。ゲームデザイナーは、元の物語と制約に適合する新しいサブグラフを自動生成することで、インタラクティブにグラフを編集できます。本稿では、GRIMをGPT-4と組み合わせて使用し、異なる文脈的制約を持つ4つの有名な物語の分岐ストーリーを生成する例を示します。
大規模言語モデル(LLM)の補完的潜在能力は、既存のLLMが多様なドメインやタスクにおいて異質な専門性を持っていることを前提とし、複数のLLMをアンサンブルすることで一貫して優れた性能を達成できると仮定しています。既存のLLMアンサンブル手法は、主に出力の報酬モデルランキングに焦点を当てており、これにより計算コストが大幅に増加します。この問題に対処するため、我々はLLMの補完的潜在能力を再検討し、既存の報酬モデルを用いて潜在的な専門性を掘り下げることでこれをさらに詳細化します。我々は、Zooterという報酬誘導型ルーティング手法を提案します。これは、トレーニングクエリに対する報酬を蒸留してルーティング関数を訓練し、各クエリをその専門性を持つLLMに正確に分配するものです。また、報酬をシルバー監視として使用する際の不確実性によるノイズを軽減するため、タグベースのラベル拡張を統合しています。Zooterは、推論時の計算効率が高く、報酬モデルランキング手法と比較してルーティング関数のわずかな計算オーバーヘッドしか導入しません。我々は、異なるドメインとタスクにわたる26のサブセットを含む包括的なベンチマークコレクションでZooterを評価しました。Zooterは、平均して最良の単一モデルを上回り、44%のタスクで首位を獲得し、複数の報酬モデルランキング手法をも凌駕する結果を示しました。
イベントのダイナミクスを正確にモデル化する言語技術は、常識推論を実行する必要がある。既存の常識推論を評価する研究は、日常的な状況に関する推論に焦点を当てている。一方で、異常で予期せず、起こりそうもない状況をモデル化する能力を調査するために、我々は「非日常的帰納推論」というタスクを探求する。このタスクでは、予期せぬ結果を含む文脈が与えられた場合、その結果を文脈内でより起こりそうなものにする自然言語の説明を帰納的に生成する必要がある。この目的のために、我々は「UNcommonsense」という新しい英語コーパスを整備し、公開した。人間の説明者と最高性能の大規模言語モデルのパフォーマンスの違いを特徴付け、モデルが強化した人間による説明が、特異性と多様性のトレードオフによって最高品質を達成することを発見した。最後に、このタスクに対してオープンでアクセス可能な言語モデルを訓練するために、いくつかのオンライン模倣学習アルゴリズムを実験した。人間の評価者によって判断された、一般的および非日常的帰納推論において、これらの方法は従来の教師あり微調整アプローチと比較して、一貫して損失率を減少させた。
パラメータ効率チューニングは、大規模言語モデルを下流タスクに適応させるための主要なアプローチとなってきました。これまでの研究の多くは、特定のタスクに適応するためにすべてのパラメータを使用する密な学習可能パラメータを追加することを検討してきました。しかし、LoRAの例を用いた実証的な検証から、学習可能パラメータを増やすことが必ずしも有効ではないことがわかりました。この知見に基づき、我々は「スパース」な計算の重要性を調査し、SiRA: スパース混合低ランク適応を提案します。SiRAは、Sparse Mixture of Expert (SMoE) を活用してLoRAの性能を向上させます。具体的には、各エキスパートが処理できるトークンの最大数を制限するキャパシティ制限を設けたトップkエキスパートルーティングを強制します。さらに、ゲーティングネットワークの上に新規でシンプルなエキスパートドロップアウトを提案し、過学習の問題を軽減します。広範な実験を通じて、SiRAがLoRAや他のエキスパート混合アプローチよりも、さまざまな単一タスクおよびマルチタスク設定において優れた性能を発揮することを検証しました。
強力な大規模言語モデル(LLM)の発展により、文章作成とコミュニケーションの質と効率を大幅に向上させることを約束するライティングアシスタントの開発が進んでいます。しかし、効果的な支援を阻む要因として、LLMの出力が著者のコミュニケーションスタイルや専門知識に合わせてパーソナライズされていないことが挙げられます。本論文では、この課題に対処するため、生成キャリブレーションされた検索器を備えたパーソナライズドLLMライティングアシスタント「PEARL」を提案します。私たちの検索器は、ユーザーのリクエストに対して最もパーソナライズされたLLM生成を可能にするために、過去のユーザー作成文書を選択するように訓練されています。検索器の訓練において、以下の2つの重要な新規性を提案します:1)パーソナライゼーションの恩恵を受ける可能性が高いユーザーリクエストと、その恩恵を提供する文書を特定する訓練データ選択方法、および2)文書がパーソナライズド生成に与える恩恵を密接に追跡するスケールキャリブレーションされたKLダイバージェンス目的関数。PEARLの有効性を、職場向けソーシャルメディア投稿とRedditコメントのパーソナライズド生成において実証します。最後に、生成キャリブレーションされた検索器が性能予測器としても機能し、LLMチェーンを通じて低品質な生成をさらに改善する可能性を示します。
Transformerベースの大規模言語モデルの最近の進展により、自然言語生成が大きく進歩しました。しかし、K個のトークンをデコードするためには、自己回帰モデルはK回の逐次的なフォワードパスを必要とし、大規模言語モデルにとって性能上のボトルネックとなる可能性があります。多くの非自己回帰(NAR)研究は、この逐次性のボトルネックに対処することを目指していますが、その多くは教師ありベンチマークにおける専用アーキテクチャに焦点を当てています。本研究では、アンロールド・デノイジングを介した非自己回帰T5モデルの教師なし事前学習を検討し、SQuAD質問生成やXSumなどの下流生成タスクにおいてSoTAの結果を示しました。
ユーザーの信頼を維持するためには、大規模言語モデル(LLM)は、誤った例に対して低い信頼度を示し、ユーザーを誤解させないようにすべきです。信頼度を推定する標準的なアプローチは、これらのモデルのソフトマックス確率を使用することですが、2023年11月現在、GPT-4やClaude-v1.3などの最先端のLLMはこれらの確率へのアクセスを提供していません。まず、LLMにその回答に対する信頼度を言語的に尋ねる方法を検討しました。この方法は、12の質問応答データセットにわたるGPT-4の平均AUCが80.5%(ランダムベースラインより7%高い)と比較的良好な結果を示しましたが、改善の余地があります。次に、代理信頼度モデルを使用する方法を探りました。これは、確率が利用可能な別のモデルを使用して、元のモデルの特定の質問に対する信頼度を評価するものです。驚くべきことに、これらの確率が異なる、しばしば弱いモデルから得られるにもかかわらず、この方法は12のデータセットのうち9つで言語的信頼度よりも高いAUCをもたらしました。言語的信頼度と代理モデルの確率を組み合わせた最良の方法は、12のデータセットすべてで最先端の信頼度推定を提供し、GPT-4の平均AUCは84.6%でした。
大規模言語モデル(LLM)は、自然言語処理の分野において革命的な時代をもたらし、テキストの理解と生成に関連するタスクで優れた性能を発揮しています。しかし、混乱した文脈(例えば、長い無関係な文脈ではなく、注意をそらす要素)に直面すると、特定の詳細を見落としてしまうという課題に直面しています。これらの課題に対応するため、我々は人間の認知プロセスに着想を得た「思考の糸」(Thread of Thought, ThoT)戦略を提案します。ThoTは、長い文脈を体系的に分割・分析し、適切な情報を巧みに選択します。この戦略は、様々なLLMやプロンプト技術とシームレスに統合可能な「プラグアンドプレイ」モジュールとして機能します。実験では、PopQAとEntityQのデータセット、および我々が収集した多ターン会話応答データセット(MTCR)を使用し、ThoTが他のプロンプト技術と比較して推論性能を大幅に向上させることを示します。
大規模言語モデル(LLM)の評価は、自然言語理解の複雑さや高度な推論能力への期待を考慮すると、非常に困難な課題です。従来の評価手法は、人間による評価、モデルベースの評価、自動指標ベースの評価といったパラダイムに依存しており、それぞれに利点と欠点があります。本論文では「Fusion-Eval」を提案します。このシステムは、LLMを直接的な評価に使用するだけでなく、多様な評価者からの洞察を巧みに統合するために活用します。これにより、Fusion-Evalは柔軟性を獲得し、様々なタスクに効果的に対応し、複数の参照を最適に活用することが可能となります。SummEvalデータセットでのテストにおいて、Fusion-Evalは0.96のスピアマン相関係数を達成し、他の評価手法を上回りました。Fusion-Evalの成功は、LLMが人間の視点に極めて近い評価を生成する可能性を示しており、LLM評価の分野において新たな基準を確立するものです。