翻訳付きの日次キュレーションされたAI研究論文
ポートレートの照明を改善する新しい手法として、光拡散法を提案します。この手法は、プロの写真家が使用するディフューザーやスクリムに着想を得ており、単一のポートレート写真から照明を柔らかくします。従来のポートレート再照明手法は、照明環境全体を変更すること、影を除去すること(強い鏡面ハイライトを無視すること)、またはシェーディングを完全に除去することに焦点を当てていました。これに対して、我々は学習ベースの手法を提案し、光拡散の量を制御し、実世界のポートレートに適用することを可能にします。さらに、被写体の顔の形状に合わせて、サブサーフェス散乱効果を伴う説得力のある外部影を合成する手法を設計します。最後に、アルベド推定、形状推定、セマンティックセグメンテーションなどの高レベルな視覚アプリケーションの堅牢性を向上させる方法を示します。
近年の3D生成ニューラルネットワークの急速な進化により、3D形状生成は大幅に改善されましたが、一般ユーザーが3D形状を作成し、生成された形状の局所的なジオメトリを制御するのは依然として容易ではありません。これらの課題に対処するため、我々は2Dスケッチ画像入力を介して、妥当な3D形状をモデル化するための拡散ベースの3D生成フレームワーク——局所注意SDF拡散(locally attentional SDF diffusion)を提案します。我々の手法は、2段階の拡散モデルに基づいています。第一段階は、occupancy-diffusionと呼ばれ、形状のシェルを近似する低解像度の占有場を生成することを目的とします。第二段階は、SDF-diffusionと呼ばれ、第一段階で決定された占有ボクセル内で高解像度の符号付き距離場を合成し、細かいジオメトリを抽出します。我々のモデルは、画像条件付き形状生成のための新しい視点認識局所注意メカニズムによって強化されており、2D画像パッチの特徴を活用して3Dボクセル特徴学習を導くことで、局所制御性とモデルの汎化性能を大幅に向上させます。スケッチ条件付きおよびカテゴリ条件付きの3D形状生成タスクにおける広範な実験を通じて、我々の手法が妥当で多様な3D形状を提供する能力、および既存の研究に対する優れた制御性と汎化性能を検証し、実証します。我々のコードと学習済みモデルは、https://zhengxinyang.github.io/projects/LAS-Diffusion.html で公開されています。
大規模言語モデル(LLM)は、驚異的な言語能力を発揮しています。GPT-4は、先進的なLLMを基盤としており、従来の視覚言語モデルを超える卓越したマルチモーダル能力を示しています。我々はこれを、従来のマルチモーダルモデルと比較してより先進的なLLMの使用に起因すると考えています。残念ながら、GPT-4のモデルアーキテクチャとトレーニング戦略は不明です。LLMにマルチモーダル能力を付与するために、我々はX-LLMを提案します。X-LLMは、X2Lインターフェースを使用してマルチモーダル(画像、音声、動画)を外国語に変換し、それを大規模言語モデル(ChatGLM)に入力します。具体的には、X-LLMは、複数の凍結された単一モーダルエンコーダと凍結されたLLMをX2Lインターフェースを使用してアラインメントします。ここで「X」は画像、音声、動画などのマルチモーダルを表し、「L」は言語を表します。X-LLMのトレーニングは3つの段階で構成されます:(1)マルチモーダル情報の変換:最初の段階では、各X2Lインターフェースをそれぞれの単一モーダルエンコーダと個別にアラインメントして、マルチモーダル情報を言語に変換します。(2)X2L表現とLLMのアラインメント:単一モーダルエンコーダは、X2Lインターフェースを介してLLMと独立してアラインメントされます。(3)複数のモーダルの統合:すべての単一モーダルエンコーダは、X2Lインターフェースを介してLLMとアラインメントされ、マルチモーダル能力をLLMに統合します。我々の実験では、X-LLMが印象的なマルチモーダルチャット能力を示し、未見の画像/指示に対してマルチモーダルGPT-4の挙動を示すこともあり、合成マルチモーダル指示追従データセットにおいてGPT-4と比較して84.5%の相対スコアを達成しました。また、LLMをASRおよびマルチモーダルASRに使用するための定量的テストも実施し、LLMベースの音声認識の時代を促進することを期待しています。
構成推論は人間の視覚的知性の特徴であるが、大規模な視覚言語モデルにもかかわらず、それらはオブジェクトとその属性を組み合わせた単純な構成を表現するのに苦労している。この構成能力の欠如を測定するために、我々はColaというテキストから画像への検索ベンチマークを設計した。これは、属性でローカライズされたオブジェクトを構成する(Compose Objects Localized with Attributes)ためのものである。Colaをテストベッドとして、事前学習済みの視覚言語モデルを、複数のオブジェクトに付属する複数の属性について構成推論を行うように適応させるためのモデル設計を探求する。我々は、2つの代表的な視覚言語モデルに対して、3つのファインチューニングデータセットと2つのテストベンチマーク(ColaとCREPE)を用いて、6つのファインチューニング戦略を検討した。驚くべきことに、我々の最適なファインチューニング戦略は、事前学習中に画像と言語を分離してエンコードする151MパラメータのCLIPを、事前学習中にマルチモーダルトランスフォーマーエンコーダを使用して視覚と言語の両方のモダリティに注意を向ける241MパラメータのFLAVAと同等の性能にまで向上させた。この最適なファインチューニング戦略は、事前学習済みモデルによって生成された画像と言語の特徴の両方に共同で注意を向ける軽量なマルチモーダルアダプターである。我々は、これがプロンプト/ファインチューニングや同等の数のユニモーダル層を調整するといった一般的な戦略よりも優れていることを示した。
拡散モデルは、視覚領域における基盤モデルの重要な柱として登場しました。その重要な応用の一つは、個別のタスクごとに再学習することなく、単一の拡散事前分布を用いて様々な下流の逆問題を普遍的に解決することです。ほとんどの逆問題は、測定値(例えばマスクされた画像)が与えられた際のデータ(例えば完全な画像)の事後分布を推論する問題として定式化できます。しかし、拡散モデルでは、拡散プロセスの非線形性と反復性により、事後分布を扱うことが困難です。この課題に対処するため、我々は真の事後分布を近似的に求めることを設計上目指す変分アプローチを提案します。このアプローチは、異なるタイムステップにおけるデノイザーが同時に画像に対して異なる構造的制約を課す、デノイジング拡散プロセスによる正則化(RED-Diff)を自然に導くことを示します。異なるタイムステップのデノイザーの寄与を評価するため、信号対雑音比(SNR)に基づく重み付けメカニズムを提案します。我々のアプローチは、拡散モデルを用いた逆問題解決に対する新しい変分的視点を提供し、サンプリングを確率的最適化として定式化することを可能にします。これにより、軽量な反復で既存のソルバーを簡単に適用できます。インペインティングや超解像などの画像復元タスクにおける実験により、我々の手法が最先端のサンプリングベースの拡散モデルと比較して優れていることを実証しました。
現代のジェネレータは、フォトリアルなレベルで驚くほどリアルなトーキングヘッド動画を生成し、制約のある帯域幅予算下でのビデオ会議など、新たなユーザー体験をもたらしています。しかし、その安全な採用には、生成された動画が信頼できるかどうかを検証するメカニズムが必要です。例えば、ビデオ会議において、個人の外見を無断で使用した合成ビデオポートレートを特定しなければなりません。私たちはこのタスクを「アバターフィンガープリンティング」と呼びます。これを解決するために、各個人に固有の顔の動きの特徴を活用することを提案します。具体的には、合成ビデオ内の外見に関係なく、ある人物の動きの特徴が一つのグループにまとめられ、他の人物の特徴から遠ざけられるような埋め込みを学習します。トーキングヘッドジェネレータがより普及するにつれて、アバターフィンガープリンティングアルゴリズムは重要になりますが、この新しいタスクのための大規模なデータセットはまだ存在しません。そこで、私たちは、スクリプトに基づいた即興の短いモノローグを話す人々の大規模なデータセットを提供し、その中で一人の人物の外見を使用して別の人物の動画を生成した合成ビデオを付属させます。プロジェクトページ: https://research.nvidia.com/labs/nxp/avatar-fingerprinting/。
ウェブページは、視覚と言語、および言語のみのタスクにおいて豊かでスケーラブルなリソースとなってきました。しかし、ウェブページの断片のみが保持されることが一般的です:画像とキャプションのペア、長文記事、または生のHTMLであり、これらが一箇所にまとめられることはありませんでした。その結果、ウェブページタスクはほとんど注目されておらず、構造化された画像とテキストのデータは十分に活用されていませんでした。マルチモーダルなウェブページ理解を研究するために、200万ページのWikipediaウェブページスイート(WikiWeb2M)を導入します。このスイートの有用性を、ページ説明生成、セクション要約、および文脈に基づく画像キャプション生成という3つの生成タスクで検証します。我々は、最も関連性の高い画像とテキストコンテンツをグローバルトークンとして選択し、残りのウェブページに注意を向ける新しい注意機構「Prefix Global」を設計しました。ページ構造を利用してこれらのトークンを分離することで、計算複雑性を低く抑えつつ、完全な注意機構よりも優れた性能を発揮します。実験結果から、WikiWeb2Mの新しいアノテーションが、従来の研究データと比較してタスク性能を向上させることが示されました。また、シーケンス長、入力特徴量、およびモデルサイズに関するアブレーションスタディも含めています。
物理シミュレーションキャラクターのための複合的なタスク駆動型モーション制御を実現する深層学習手法を提案します。既存の強化学習を用いたデータ駆動型アプローチが全身のモーションを模倣するのに対し、本手法ではGANに似たセットアップで複数の識別器を活用し、特定の身体部位の分離されたモーションを複数の参照モーションから同時に直接学習します。このプロセスでは、学習用の複合参照モーションを手動で作成する必要はありません。代わりに、制御ポリシー自体が複合モーションを自動的に組み合わせる方法を探索します。さらに、複数のタスク固有の報酬を考慮し、単一の多目的制御ポリシーを訓練します。この目的のために、複数のソースからの異なるモーションと複数の目標指向型制御目的の学習を適応的にバランスさせる、新しい多目的学習フレームワークを提案します。加えて、複合モーションは通常、より単純な動作の拡張であるため、事前に訓練されたポリシーをメタポリシーとして再利用し、新しい複合タスクのためにメタポリシーを適応させる協調ポリシーを訓練する、サンプル効率の良い増分的な方法を導入します。本手法の適用性を、複合モーションの模倣と複数の目標指向型制御の両方を含む様々な挑戦的な多目的タスクにおいて示します。