翻訳付きの日次キュレーションされたAI研究論文
私たちは、潜在拡散に基づく大規模なテキストから画像生成モデルであるKandinsky 3.0を発表します。これは、テキストから画像生成のKandinskyシリーズを継続し、画像生成の品質とリアリズムを向上させるための進展を反映しています。Kandinsky 2.xの以前のバージョンと比較して、Kandinsky 3.0は2倍大きいU-Netバックボーン、10倍大きいテキストエンコーダーを採用し、拡散マッピングを削除しました。本モデルのアーキテクチャ、データ収集手順、トレーニング技術、およびユーザーインタラクションのプロダクションシステムについて説明します。私たちは、多数の実験の結果として特定した、他のモデルと比較して品質向上に最も大きな影響を与えた主要なコンポーネントに焦点を当てます。私たちの並列比較により、Kandinskyはテキスト理解が向上し、特定のドメインでより良く機能するようになりました。プロジェクトページ: https://ai-forever.github.io/Kandinsky-3
テキスト音声合成(TTS)において、拡散モデルは有望な生成品質を達成しています。しかし、事前に定義されたデータからノイズへの拡散プロセスのため、その事前分布はノイズの多い表現に制限されており、生成目標に関する情報がほとんど提供されません。本研究では、確立された拡散ベースのTTS手法におけるノイズの多いガウス事前分布を、クリーンで決定論的な事前分布に置き換える初の試みとして、Bridge-TTSという新しいTTSシステムを提案します。この事前分布は、目標の強力な構造情報を提供します。具体的には、テキスト入力から得られた潜在表現を事前分布として活用し、それとグラウンドトゥルースのメルスペクトログラムの間に完全に追跡可能なシュレーディンガーブリッジを構築し、データからデータへのプロセスを実現します。さらに、我々の定式化の追跡可能性と柔軟性により、ノイズスケジュールなどの設計空間を実証的に研究し、確率的および決定論的なサンプラーを開発することが可能です。LJ-Speechデータセットでの実験結果は、合成品質とサンプリング効率の両面で我々の手法の有効性を示しており、50ステップ/1000ステップの合成において拡散モデルであるGrad-TTSを大幅に上回り、少ステップのシナリオでは強力な高速TTSモデルを凌駕しています。プロジェクトページ: https://bridge-tts.github.io/
コントラスティブ言語-画像事前学習(CLIP)は、多様なタスクにおいて画像から有益なコンテンツ情報を抽出する上で重要な役割を果たします。CLIPはテキストと視覚のモダリティを整合させ、特定のタスクに関係のない詳細も含めて画像全体を理解します。しかし、より細かい理解と制御された画像編集のためには、人間や知覚モデルによって点、マスク、またはボックスとして示される特定の関心領域に焦点を当てることが重要です。この要件を満たすために、Alpha-CLIPを導入します。これは、注目領域を示す補助的なアルファチャンネルを備えたCLIPの強化版であり、構築された数百万のRGBA領域-テキストペアで微調整されています。Alpha-CLIPは、CLIPの視覚認識能力を維持するだけでなく、画像コンテンツの強調を精密に制御することができます。オープンワールド認識、マルチモーダル大規模言語モデル、条件付き2D/3D生成など、さまざまなタスクにおいて有効性を示しており、画像関連タスクの汎用ツールとしての強い可能性を秘めています。
コードは、複雑なプログラムを構築し、コードインタプリタと組み合わせることで精密な計算を実行するための一般的な構文構造を提供します。私たちは、言語モデル(LM)がコード記述を活用することで、論理や算術タスクだけでなく、言語タスク(特に両者が混在するタスク)においても、Chain of Thought推論を改善できると仮説を立てています。例えば、エッセイ内の皮肉を検出し、その回数を数えるコードをLMにプロンプトすることを考えてみましょう。LMは「detect_sarcasm(string)」の実装をインタプリタで実行可能な形で記述するのに苦労するかもしれません(エッセイケースの処理は克服できないほど困難でしょう)。しかし、LMがコードを記述するだけでなく、インタプリタがコンパイルできないコードを含む「detect_sarcasm(string)」や他の行のコードの期待される出力を選択的に「エミュレート」することで、有効なソリューションを生成できる可能性があります。本研究では、LMのコード駆動推論を改善する、シンプルでありながら驚くほど効果的な拡張であるChain of Code(CoT)を提案します。鍵となるアイデアは、言語サブタスクをプログラム内で柔軟な疑似コードとしてフォーマットするようLMに促し、コンパイラが未定義の動作を明示的に捕捉し、LM(「LMulator」として)にシミュレーションを委ねることです。実験結果は、Chain of CodeがChain of Thoughtや他のベースラインを様々なベンチマークで上回ることを示しています。BIG-Bench Hardでは、Chain of Codeは84%を達成し、Chain of Thoughtに対して12%の向上を実現しました。CoTは大規模モデルと小規模モデルの両方でうまくスケールし、LMが「コードで考える」ことで正しく答えられる推論問題の範囲を広げます。プロジェクトウェブページ: https://chain-of-code.github.io/。
高忠実度な3Dヘッドアバターの作成は常に研究のホットスポットであり、軽量な疎ビュー設定下では依然として大きな課題が残っています。本論文では、高忠実度なヘッドアバターモデリングのための制御可能な3Dガウシアンで表現されるGaussian Head Avatarを提案します。ニュートラルな3Dガウシアンと完全に学習されたMLPベースの変形フィールドを最適化し、複雑な表情を捉えます。これら2つの要素は互いに補完し合い、細かな動的ディテールをモデル化しながら表情の正確性を保証します。さらに、トレーニングプロセスの安定性と収束性を確保するため、暗黙的SDFとDeep Marching Tetrahedraに基づいた幾何学ガイド型の初期化戦略を考案しました。実験結果から、本手法は他の最先端の疎ビュー手法を凌駕し、誇張された表情下でも2K解像度で超高忠実度なレンダリング品質を実現することが示されています。
ビデオにおけるモーションは主に、カメラの動きによって生じるカメラモーションと、物体の動きによって生じる物体モーションから構成されます。ビデオ生成においては、カメラモーションと物体モーションの両方を正確に制御することが不可欠です。しかし、既存の研究は主に一方のモーションに焦点を当てるか、あるいは両者を明確に区別していないため、制御能力と多様性が制限されています。そこで本論文では、カメラモーションと物体モーションを効果的かつ独立して制御するために設計された、統一された柔軟なモーションコントローラであるMotionCtrlを提案します。MotionCtrlのアーキテクチャとトレーニング戦略は、カメラモーションと物体モーションの固有の特性、および不完全なトレーニングデータを考慮して慎重に考案されています。従来の手法と比較して、MotionCtrlには以下の3つの主な利点があります:1) カメラモーションと物体モーションを効果的かつ独立して制御し、より細かいモーション制御を可能にし、両者の柔軟で多様な組み合わせを容易にします。2) そのモーション条件はカメラのポーズと軌跡によって決定され、外観に依存せず、生成されたビデオ内の物体の外観や形状に最小限の影響しか与えません。3) 一度トレーニングされれば、幅広いカメラのポーズと軌跡に適応できる比較的汎用性の高いモデルです。MotionCtrlの優位性を示すために、広範な定性的および定量的な実験が行われました。
本論文は、大規模言語モデル(LLMs)に関する詳細な分析を提示し、自然言語処理分野における代表的なオープンソース基盤モデルであるLLaMAに焦点を当てています。LLaMAをその生成出力を通じて評価するのではなく、推論や計算といった高次タスクにおける内在的理解を探るために、多肢選択タスクを設計しました。モデルを水平的に比較し、異なるサイズを検証するとともに、垂直的に異なる層を評価しました。設計したプロービングタスクに基づき、以下の重要なかつ珍しい知見を明らかにしました:(1)水平的には、モデルサイズを拡大しても、追加の知識や計算能力が自動的に付与されることはほとんどありません。代わりに、特に数学的問題解決において推論能力が向上し、特定のサイズ閾値を超えると幻覚(hallucination)を減少させる効果があります。(2)垂直的分析では、LLaMAの下位層には算術や事実知識がほとんどなく、論理的思考、多言語能力、認識能力を示す一方で、上位層にはほとんどの計算能力と実世界の知識が集約されています。
近年、フォトリアルな人間モデリングとレンダリングにおいて目覚ましい進展が見られています。しかし、現実的な人間のパフォーマンスを効率的にレンダリングし、ラスタライゼーションパイプラインに統合することは依然として課題です。本論文では、高密度映像からの高精細な人間パフォーマンスレンダリングのための明示的かつコンパクトなガウシアンベースのアプローチであるHiFi4Gを提案します。私たちの核心的な直感は、3Dガウシアン表現と非剛体トラッキングを組み合わせることで、コンパクトで圧縮に適した表現を実現することです。まず、モーションプライアを取得するためのデュアルグラフメカニズムを提案し、効果的な初期化のための粗い変形グラフと、その後の制約を課すための細粒度のガウシアングラフを導入します。次に、適応的な時空間正則化器を用いた4Dガウシアン最適化スキームを活用し、非剛体プライアとガウシアン更新のバランスを効果的に取ります。また、様々なプラットフォームでの没入型体験のための残差補償を伴う圧縮スキームも提示します。これにより、1フレームあたり2MB未満のストレージで約25倍の大幅な圧縮率を達成します。広範な実験を通じて、本アプローチの有効性が実証され、最適化速度、レンダリング品質、ストレージオーバーヘッドの点で既存のアプローチを大幅に上回ることが示されています。
本論文では、コンテキストとして提示された視覚的例から学習可能な画像生成モデルのための拡散ベースのフレームワーク「Context Diffusion」を提案する。最近の研究では、クエリ画像とコンテキスト例、テキストプロンプトを併せて提供する画像生成におけるインコンテキスト学習に取り組んでいる。しかし、プロンプトが存在しない場合、生成画像の品質と忠実度が低下することから、これらのモデルが視覚的コンテキストから真に学習できていないことが示されている。この問題を解決するため、視覚的コンテキストのエンコーディングとクエリ画像の構造の保持を分離する新たなフレームワークを提案する。これにより、視覚的コンテキストとテキストプロンプトの両方からだけでなく、いずれか一方からも学習可能となる。さらに、我々のモデルは少数ショット設定に対応し、多様なインコンテキスト学習シナリオに効果的に対処できる。実験とユーザスタディにより、Context Diffusionがドメイン内およびドメイン外のタスクにおいて優れ、比較対象モデルと比べて画像の品質と忠実度が全体的に向上することが実証された。
ChatGPTのような大規模言語モデル(LLMs)は、汎用的な言語理解能力、特に高品質なテキストやコンピュータコードを生成する能力に対して大きな注目を集めています。多くの職業において、LLMsは作業の速度を向上させ、品質を高めるための貴重なツールとなっています。本稿では、プロの数学者がLLMsをどの程度活用できるかについて議論します。まず、現代の言語モデルで使用されているトランスフォーマーモデルの数学的記述を提供します。次に、最近の研究に基づいて、ベストプラクティスと潜在的な課題を概説し、言語モデルの数学的能力について報告します。最後に、LLMsが数学者の働き方をどのように変える可能性があるかについて考察します。
テキストベースのビデオ編集は最近、スタイルの変更や類似構造を持つオブジェクトの置換において大きな注目を集めています。これに加えて、我々は形状、サイズ、位置、動きなどのプロパティもビデオ内で編集可能であることを実証します。我々の重要な洞察は、特定の内部特徴(例えば、オブジェクトのエッジマップや人間のポーズ)のキーフレーム変換が、他のフレームに容易に伝播し、生成ガイダンスを提供できることです。そこで我々は、抽出された内部制御信号の変換を利用してビデオのプロパティを編集する制御可能なビデオ編集手法であるMagicStickを提案します。詳細には、外観を維持するために、事前学習済みの画像拡散モデルとControlNetを時間次元に拡張し、特定のシーンに適合するように低ランク適応(LORA)層を訓練します。その後、編集において、逆変換と編集のフレームワークを実行します。異なる点として、微調整されたControlNetが逆変換と生成の両方で、提案された空間注意マップ間の注意リミックスを用いた注意ガイダンスのために導入されます。簡潔ながらも、我々の手法は事前学習済みのテキストから画像へのモデルからビデオプロパティ編集の能力を示す最初の手法です。我々は統一されたフレームワーク内で多数の例を用いた実験を提示します。また、形状を意識したテキストベースの編集や手作りモーションビデオ生成と比較し、我々の手法が以前の作品よりも優れた時間的一貫性と編集能力を持つことを示します。コードとモデルは公開される予定です。
私たちは、ユーザーのニーズに合わせてカスタマイズされた視覚的な指示書を生成する新しいタスクである「イラスト付き指示書生成」を提案します。このタスクに特有の要件を特定し、生成物の妥当性、一貫性、有効性を測定するための自動評価指標と人間による評価指標のセットを通じて、このタスクを形式化します。私たちは、大規模言語モデル(LLM)の能力と強力なテキストから画像を生成する拡散モデルを組み合わせ、テキストを入力として与えることでイラスト付き指示書を生成する「StackedDiffusion」というシンプルなアプローチを提案します。その結果、このモデルはベースラインアプローチや最先端のマルチモーダルLLMを大きく上回り、30%のケースではユーザーが人間が作成した記事よりも好む結果を示しました。最も注目すべき点は、ウェブ上の静的な記事が提供できる範囲をはるかに超えた、ユーザーの個別の状況に応じた中間ステップや画像を含むパーソナライズされた指示書など、さまざまな新しいエキサイティングなアプリケーションを可能にすることです。
本論文は、Representation-Conditioned Image Generation(RCG)を提案する。これはシンプルでありながら効果的な画像生成フレームワークであり、クラス非条件付き画像生成において新たなベンチマークを確立する。RCGは人間によるアノテーションを一切条件付けとせず、代わりに事前学習済みエンコーダを用いて画像分布からマッピングされた自己教師表現分布を条件付けとする。生成時には、RCGは表現拡散モデル(RDM)を用いてこの表現分布からサンプリングし、サンプリングされた表現を条件としてピクセル生成器を用いて画像ピクセルを生成する。この設計により、生成プロセスにおいて大幅なガイダンスが提供され、高品質な画像生成が実現される。ImageNet 256×256での実験において、RCGはFrechet Inception Distance(FID)3.31、Inception Score(IS)253.4を達成した。これらの結果は、クラス非条件付き画像生成の最先端を大幅に向上させるだけでなく、クラス条件付き画像生成における現在の主要な手法にも匹敵し、これら2つのタスク間の長年の性能差を埋めるものである。コードはhttps://github.com/LTH14/rcgで公開されている。
事前学習済みの2D大規模生成モデルを活用することで、最近の研究では単一の実世界画像から高品質な新規視点を生成することが可能となっています。しかし、複数視点からの情報が不足しているため、これらの研究では制御可能な新規視点の生成に困難を抱えています。本論文では、DreamComposerを提案します。これは、既存の視点認識拡散モデルを強化する柔軟でスケーラブルなフレームワークであり、複数視点の条件を注入することができます。具体的には、DreamComposerはまず視点認識3Dリフティングモジュールを使用して、複数視点から物体の3D表現を取得します。次に、複数視点特徴融合モジュールを用いて、3D表現から目標視点の潜在特徴をレンダリングします。最後に、複数視点入力から抽出された目標視点特徴を事前学習済みの拡散モデルに注入します。実験により、DreamComposerがゼロショット新規視点合成のための最先端の拡散モデルと互換性があり、それらをさらに強化して高忠実度の新規視点画像を複数視点条件付きで生成できることが示されました。これにより、制御可能な3Dオブジェクト再構築やその他の様々なアプリケーションに適した状態となります。
我々は、数値的に安定かつバイアスのない単調アライメント推定を備えた最先端の同時翻訳モデルであるEfficient Monotonic Multihead Attention (EMMA)を提案する。さらに、オフライン翻訳モデルからの同時ファインチューニングや単調アライメントの分散低減を含む、改良された学習と推論戦略を提示する。実験結果は、提案モデルがスペイン語と英語の翻訳タスクにおいて、音声からテキストへの同時翻訳で最先端の性能を達成することを示している。
人間の日常行動をエゴセントリックな視点から指導用画像を生成することは、効率的なスキル伝達に向けた重要なステップである。本論文では、新たな課題としてエゴセントリックなアクションフレーム生成を提案する。この課題の目的は、ユーザーのプロンプト質問と、ユーザーの環境を捉えた入力エゴセントリック画像に基づいて、アクションフレームを合成することである。特に、既存のエゴセントリックデータセットには、アクションの実行を詳細に記述したアノテーションが欠けている。さらに、拡散ベースの画像操作モデルは、対応するエゴセントリック画像のピクセル空間内でアクションの状態変化を制御することができない。この問題に対処するため、視覚的大規模言語モデル(VLLM)を視覚的指示チューニングによって微調整し、豊富なアクション記述をキュレーションする。さらに、VLLMから得られた画像とテキストの埋め込みを追加の条件として用いて、LEGO(Learn EGOcentric)アクションフレーム生成を提案する。提案モデルを2つのエゴセントリックデータセット(Ego4DとEpic-Kitchens)で検証し、従来の画像操作モデルと比較して定量的および定性的な評価において顕著な改善を示す。また、詳細なアブレーション研究と分析を行い、本手法の洞察を提供する。
ニューラルラジアンスフィールド(NeRF)は、最新鋭のビュー合成品質を提供しますが、レンダリングが遅くなる傾向があります。その理由の一つは、ボリュームレンダリングを利用しているため、レンダリング時にレイごとに多くのサンプル(およびモデルクエリ)を必要とすることです。この表現は柔軟で最適化が容易ですが、現実世界のほとんどのオブジェクトは、ボリュームではなくサーフェスでモデル化する方が効率的であり、レイごとに必要なサンプル数を大幅に削減できます。この観察から、符号付き距離関数(SDF)などのサーフェス表現が大きく進歩しましたが、これらの手法は半透明や薄い構造のモデル化に苦戦する可能性があります。私たちは、HybridNeRFという手法を提案します。この手法は、ほとんどのオブジェクトをサーフェスとしてレンダリングしつつ、困難な領域(通常は小さい部分)をボリューム的にモデル化することで、両方の表現の長所を活用します。HybridNeRFを、Eyeful Towerデータセットや他の一般的に使用されるビュー合成データセットに対して評価しました。最新のベースライン(最近のラスタライゼーションベースのアプローチを含む)と比較すると、エラー率を15-30%改善しつつ、仮想現実解像度(2Kx2K)でリアルタイムフレームレート(少なくとも36 FPS)を達成しました。