翻訳付きの日次キュレーションされたAI研究論文
生成モデルの出力に透かしを入れることは、著作権の追跡やAI生成コンテンツによる潜在的な害を防ぐための重要な技術です。本論文では、拡散モデルの出力に頑健なフィンガープリントを埋め込む新しい技術「Tree-Ring Watermarking」を紹介します。既存の手法がサンプリング後に画像を事後的に修正するのに対し、Tree-Ring Watermarkingはサンプリングプロセス全体に微妙に影響を与え、人間には見えないモデルフィンガープリントを生成します。この透かしは、サンプリングに使用される初期ノイズベクトルにパターンを埋め込みます。これらのパターンはフーリエ空間で構造化されており、畳み込み、クロップ、拡大縮小、反転、回転に対して不変です。画像生成後、透かし信号は拡散プロセスを逆転させてノイズベクトルを取得し、埋め込まれた信号をチェックすることで検出されます。本技術は、テキスト条件付きStable Diffusionを含む任意の拡散モデルに、FIDの低下をほとんど伴わずにプラグインとして簡単に適用できることを実証します。私たちの透かしは画像空間に意味的に隠されており、現在展開されている他の透かし技術よりもはるかに頑健です。コードはgithub.com/YuxinWenRick/tree-ring-watermarkで公開されています。
Transformerベースの大規模言語モデル(LLM)は、複雑な多段階の推論を必要とするタスクにおいて卓越した性能を示し、賞賛を集めています。しかし、これらのモデルは同時に、驚くほど単純な問題で失敗することもあります。これは、これらのエラーが偶発的なものなのか、それともより根本的な限界を示しているのかという疑問を投げかけます。Transformerの謎を解明するため、私たちは3つの代表的な構成タスク——多桁の乗算、論理グリッドパズル、古典的な動的計画法の問題——において、これらのモデルの限界を調査しました。これらのタスクは、問題をサブステップに分解し、それらのステップを統合して正確な答えを導き出すことを要求します。私たちは構成タスクを計算グラフとして定式化し、複雑さのレベルを体系的に定量化し、推論ステップを中間的なサブプロシージャに分解しました。私たちの実証的な研究結果は、Transformerが多段階の構成推論を線形化されたサブグラフマッチングに還元することで構成タスクを解決し、必ずしも体系的な問題解決スキルを発展させていないことを示唆しています。実証研究を締めくくるために、私たちは抽象的な多段階推論問題に関する理論的な議論を提供し、タスクの複雑さが増すにつれてTransformerの性能が急速に低下することを強調します。
自動テキストから3Dへの合成は、3Dモデルの最適化を通じて顕著な進歩を遂げてきました。既存の手法では、拡散モデルなどの事前学習済みテキストから画像への生成モデルに依存し、Neural Radiance Fields(NeRF)の2Dレンダリングに対するスコアを提供し、NeRFの最適化に利用されることが一般的です。しかし、これらの手法は3Dジオメトリの理解が限られているため、複数の視点間でアーティファクトや不整合が生じることがしばしばあります。これらの制限を解決するために、我々は拡散事前分布を用いた最適化損失の再定式化を提案します。さらに、拡散事前分布の潜在能力を引き出す新しいトレーニングアプローチを導入します。3Dジオメトリ表現を改善するために、NeRFレンダリング画像に対する補助的な深度監視を適用し、NeRFの密度場を正則化します。広範な実験により、我々の手法が従来の研究を上回り、高度なフォトリアリズムと改善されたマルチビュー一貫性を実現することが示されています。
近年の画像-テキスト拡散モデルの進展は、大規模な3D生成モデルへの研究関心を刺激しています。しかしながら、多様な3Dリソースの限られた可用性は、学習に重大な課題を提示しています。本論文では、事前学習済みの画像-テキスト拡散モデルをデータ生成に活用し、Generative Adversarial Network(GAN)ベースの3D生成ネットワークを訓練に用いることで、高品質でスタイリッシュな3Dアバターを生成する新規手法を提案します。本手法は、画像-テキスト拡散モデルが提供する外観と形状に関する包括的な事前知識を活用し、様々なスタイルのアバターの多視点画像を生成します。データ生成においては、既存の3Dモデルから抽出したポーズを用いて多視点画像の生成を誘導します。データにおけるポーズと画像の不整合に対処するため、視点固有のプロンプトを調査し、GAN訓練のための粗から細への識別器を開発します。また、生成されるアバターの多様性を高めるため、属性関連のプロンプトについても探究します。さらに、StyleGANのスタイル空間内で潜在拡散モデルを開発し、画像入力に基づくアバター生成を可能にします。本手法は、生成されるアバターの視覚的品質と多様性において、現在の最先端手法を凌駕する性能を示しています。
本論文では、テキスト音声合成(TTS)用途に設計された新しい音声データセット「LibriTTS-R」を紹介する。このデータセットは、2,456名の話者による24 kHzサンプリングレートの585時間の音声データと対応するテキストからなるLibriTTSコーパスに音声復元処理を適用して作成された。LibriTTS-Rの構成サンプルはLibriTTSと同一であり、音質のみが改善されている。実験結果から、LibriTTS-RのグラウンドトゥルースサンプルはLibriTTSのサンプルと比較して音質が大幅に向上していることが示された。さらに、LibriTTS-Rで学習したニューラルエンドツーエンドTTSは、グラウンドトゥルースサンプルと同等の自然な音声を生成することが確認された。本コーパスはhttp://www.openslr.org/141/から自由にダウンロード可能である。
近年の拡散モデルの進化により、テキストプロンプトを用いた高精細な画像生成が可能となった。しかし、生成画像と実世界の画像の間にはドメインギャップが存在し、実世界画像の高品質なバリエーション生成において課題となっている。本研究では、このドメインギャップが異なる拡散プロセスにおける潜在変数の分布の違いに起因することを明らかにした。この問題を解決するため、我々はReal-world Image Variation by ALignment (RIVAL)と呼ばれる新しい推論パイプラインを提案する。このパイプラインは、拡散モデルを利用して単一の画像例から画像バリエーションを生成するものである。我々のパイプラインは、画像生成プロセスをソース画像の逆変換チェーンに整合させることで、画像バリエーションの生成品質を向上させる。具体的には、ステップごとの潜在変数分布の整合が高品質なバリエーション生成に不可欠であることを示す。これを実現するため、特徴量相互作用のためのクロスイメージ自己注意注入と、潜在特徴量を整合させるためのステップごとの分布正規化を設計した。これらの整合プロセスを拡散モデルに組み込むことで、RIVALは追加のパラメータ最適化なしで高品質な画像バリエーションを生成できる。実験結果は、提案手法が既存の手法を上回るセマンティック条件類似性と知覚品質を達成することを示している。さらに、この汎用的な推論パイプラインは、画像条件付きテキストから画像への生成や例に基づく画像修復といった他の拡散ベースの生成タスクにも容易に適用可能である。
大規模言語モデル(LLM)は、わずかな文脈内の例から多様な自然言語タスクを学習することが可能です。しかし、高度に構造化された言語(例えば、複雑なドメイン固有言語への意味解析)から文字列を生成する場合、LLMが少数の例から一般化することは困難です。本研究では、文法プロンプティングというシンプルなアプローチを探求し、LLMが外部知識とドメイン固有の制約を利用できるようにします。これらは、Backus-Naur形式(BNF)で表現された文法を通じて、文脈内学習中に適用されます。文法プロンプティングは、各デモンストレーション例を、特定の出力例を生成するために最小限に必要な専門文法で拡張します。ここで、専門文法は完全なドメイン固有言語(DSL)文法のサブセットです。推論時には、LLMはまずテスト入力に基づいてBNF文法を予測し、その後、その文法の規則に従って出力を生成します。実験結果は、文法プロンプティングがLLMに多様なDSL生成タスク(意味解析:SMCalFlow、Overnight、GeoQuery、PDDLプランニング、さらには分子生成:SMILES)で競争力のある性能を発揮させることを示しています。
我々は、多言語視覚言語モデルであるPaLI-Xのトレーニングレシピと、コンポーネントの規模とトレーニングタスクの多様性の両面におけるスケールアップの結果を紹介します。本モデルは、複数の画像ベースのキャプショニングや質問応答タスク、画像ベースの文書理解、少数ショット(インコンテキスト)学習、さらには物体検出、動画質問応答、動画キャプショニングなど、多様で複雑なタスクにおいて新たな性能レベルを達成しました。PaLI-Xは、検討された視覚言語ベンチマークの大半(25以上)において、最先端の性能を向上させています。最後に、複雑な計数や多言語物体検出など、トレーニングミックスに明示的に含まれていないタスクにおいても、新たな能力が発現することを観察しました。
大規模な拡散モデルはテキストから音声(T2A)合成タスクで成功を収めてきたが、自然言語理解の限界やデータ不足により、意味的な不整合や時間的一貫性の欠如といった共通の問題に悩まされることが多い。さらに、T2A研究で広く使用されている2D空間構造は、時間情報を十分に優先しないため、可変長の音声サンプルを生成する際に不満足な音質をもたらす。これらの課題に対処するため、我々はMake-an-Audioの成功を基盤とした潜在拡散ベースのT2A手法であるMake-an-Audio 2を提案する。本手法では、意味的整合性と時間的一貫性を改善するためのいくつかの技術を導入している。まず、事前学習済みの大規模言語モデル(LLM)を使用してテキストを構造化された<イベント&順序>ペアに解析し、時間情報の捕捉を向上させる。また、拡散ノイズ除去プロセス中に意味的整合性の学習を支援するため、別の構造化テキストエンコーダを導入する。可変長生成の性能向上と時間情報抽出の強化のために、フィードフォワード型のTransformerベースの拡散ノイズ除去器を設計する。最後に、LLMを使用して大量の音声ラベルデータを音声-テキストデータセットに拡張・変換し、時間データの不足問題を緩和する。大規模な実験により、本手法がベースラインモデルを客観的および主観的指標の両方で上回り、時間情報の理解、意味的一貫性、音質において大幅な向上を達成することが示された。
本論文では、動的な3Dアバターを新しいスタイルの任意のテキスト記述に迅速に適応させる手法を提案する。既存のアバタースタイライゼーション手法の中でも、直接最適化法は任意のスタイルに対して優れた結果を生成できるが、処理速度が遅いという欠点がある。さらに、新しい入力ごとに最適化プロセスを一からやり直す必要がある。一方、大規模なスタイル画像データセットで訓練されたフィードフォワードネットワークを使用した高速近似法は、新しい入力に対して迅速に結果を生成できるが、新しいスタイルへの汎化性能が低く、品質も不十分である。そこで我々は、メタ学習フレームワークを用いてこれら2つのアプローチを組み合わせた新しい手法「AlteredAvatar」を検討する。内側のループでは、モデルは単一のターゲットスタイルにうまく適合するように最適化する方法を学習し、外側のループでは、モデルは多くのスタイルにわたって効率的にスタイライズする方法を学習する。訓練後、AlteredAvatarは、テキスト、参照画像、またはその両方を使用して与えられる新しいスタイルに、少数の更新ステップで迅速に適応できる初期化を学習する。我々は、AlteredAvatarが速度、柔軟性、品質の良いバランスを達成しつつ、広範囲の新しい視点や表情にわたって一貫性を維持できることを示す。
我々は、訓練済みの視覚モデルをストレステストするための自動化アルゴリズムを提案する。この手法では、言語ガイドによる反実仮想テスト画像(LANCE)を生成する。我々の手法は、大規模言語モデリングとテキストベースの画像編集の最近の進展を活用し、モデルの重みを変更することなく、多様で現実的かつ挑戦的なテスト画像群をIIDテストセットに追加する。生成されたデータに対して、多様な事前訓練済みモデルの性能をベンチマークし、有意かつ一貫した性能低下を観察した。さらに、異なるタイプの編集に対するモデルの感度を分析し、ImageNetにおける未知のクラスレベルのモデルバイアスを表面化する適用可能性を実証する。
幾何学的データを扱う問題は、コンピュータビジョン、ロボティクス、化学、物理学など、さまざまな分野で発生します。このようなデータは、点、方向ベクトル、平面、変換など、多様な形式を取り得ますが、これまで、これほど多様な幾何学的タイプに対してその対称性を尊重しながら適用できる単一のアーキテクチャは存在しませんでした。本論文では、幾何学的データのための汎用アーキテクチャであるGeometric Algebra Transformer(GATr)を紹介します。GATrは、入力、出力、および隠れ状態を射影幾何代数で表現します。これにより、一般的な幾何学的オブジェクトおよびそれらに作用する演算子を効率的な16次元ベクトル空間で表現できます。GATrは、3次元ユークリッド空間の対称群であるE(3)に対して等変性を持ちます。トランスフォーマーとして、GATrはスケーラブルで表現力が高く、汎用性があります。n体モデリングとロボット計画の実験において、GATrは非幾何学的なベースラインに対して大幅な改善を示しました。
拡散モデルは現在、画像生成において最先端の技術であり、生成プロセスを多数の細かいノイズ除去ステップに分解することで高品質な画像を合成します。その優れた性能にもかかわらず、拡散モデルは計算コストが高く、多くのニューラル関数評価(NFE)を必要とします。本研究では、完了前に任意の時点で停止しても有効な画像を生成できる、いつでも停止可能な拡散ベースの手法を提案します。既存の事前学習済み拡散モデルを使用し、生成スキームを2つのネストされた拡散プロセスとして再構成することで、生成画像の高速な反復的改良を可能にします。このネスト拡散アプローチを用いて、生成プロセスを覗き見し、ユーザーの即時の好みに基づいた柔軟なスケジューリングを実現します。ImageNetおよびStable Diffusionベースのテキストから画像への生成実験において、本手法の中間生成品質が元の拡散モデルを大幅に上回り、最終的な低速生成結果も同等であることを定性的・定量的に示します。
画像広告の理解は、現実世界での幅広い応用が可能な重要な課題である。多様な非典型的なシーン、実世界のエンティティ、シーンテキストにわたる推論が関わるため非常に困難ではあるが、特に汎用性と適応性に優れた基盤的視覚言語モデル(VLM)の時代において、画像広告をどのように解釈するかは比較的未開拓の領域である。本論文では、事前学習済みVLMの観点から画像広告理解に関する初の実証的研究を行う。これらのVLMを画像広告理解に適応させる際の実践的な課題をベンチマークし、明らかにする。我々は、画像広告のためのマルチモーダル情報を効果的に融合するシンプルな特徴適応戦略を提案し、さらに実世界のエンティティに関する知識を活用して強化する。本研究が、広告業界に広く関連する画像広告理解にさらなる注目を集めることを期待する。