翻訳付きの日次キュレーションされたAI研究論文
大規模言語モデル(LLM)の最近の進展により、複雑なタスクを実行可能なインテリジェントエージェントの開発が進んでいます。本論文では、スマートフォンアプリケーションを操作するための新しいLLMベースのマルチモーダルエージェントフレームワークを紹介します。このフレームワークは、タップやスワイプといった人間のようなインタラクションを模倣した簡素化されたアクション空間を通じて、エージェントがスマートフォンアプリケーションを操作することを可能にします。この新しいアプローチは、システムのバックエンドアクセスを必要としないため、多様なアプリケーションへの適用範囲が広がります。エージェントの機能の中核となるのは、その革新的な学習方法です。エージェントは、自律的な探索や人間のデモンストレーションを観察することで、新しいアプリケーションのナビゲートと使用方法を学習します。このプロセスにより、エージェントが異なるアプリケーション間で複雑なタスクを実行する際に参照する知識ベースが生成されます。本エージェントの実用性を実証するため、ソーシャルメディア、メール、地図、ショッピング、高度な画像編集ツールなど、10種類の異なるアプリケーションにおける50のタスクに対して広範なテストを実施しました。その結果、本エージェントが多様な高レベルタスクを扱う能力に優れていることが確認されました。
本論文では、Paint3Dという新しい粗密生成フレームワークを提案する。このフレームワークは、テキストや画像入力を条件として、未テクスチャの3Dメッシュに対して高解像度で照明情報を含まない多様な2K UVテクスチャマップを生成することができる。本手法が取り組む主要な課題は、埋め込まれた照明情報を含まない高品質なテクスチャを生成することであり、これにより、現代のグラフィックスパイプライン内でテクスチャを再照明または再編集することが可能となる。これを実現するため、本手法ではまず、事前学習済みの深度認識2D拡散モデルを活用して視点条件付き画像を生成し、マルチビューテクスチャ融合を行い、初期の粗いテクスチャマップを作成する。しかし、2Dモデルは3D形状を完全に表現できず、照明効果を無効化できないため、粗いテクスチャマップには不完全な領域や照明アーティファクトが現れる。これを解決するために、不完全な領域の形状認識リファインメントと照明アーティファクトの除去に特化したUV InpaintingおよびUVHD拡散モデルを別々に学習する。この粗密プロセスを通じて、Paint3Dはセマンティック一貫性を維持しつつ照明情報を含まない高品質な2K UVテクスチャを生成することができ、3Dオブジェクトのテクスチャリングにおける最先端技術を大幅に進展させる。
本論文では、言語モデルを新しい時代に適応させるためのシンプルなツールであるタイムベクトルを提案します。タイムベクトルは、単一の時間(例えば、年や月)のデータで言語モデルをファインチューニングし、その後、元の事前学習済みモデルの重みを差し引くことで作成されます。このベクトルは、我々の実験が示すように、その時代のテキストに対する性能を向上させる重み空間内の方向を指定します。隣接する時代に特化したタイムベクトルは、多様体内で互いに近い位置に配置されているように見えます。この構造を利用して、タイムベクトル間を補間することで、追加の学習なしに、中間および未来の時代においてより良い性能を発揮する新しいモデルを誘導します。我々は、異なるタスク、ドメイン、モデルサイズ、時間スケールにわたって、この発見の一貫性を実証します。結果は、ファインチューニングされたモデルの重み空間に時間がエンコードされていることを示唆しています。
最近のパーソナライズドテキスト-to-イメージ(T2I)モデルの進展は、コンテンツ作成に革命をもたらし、非専門家でも独自のスタイルで見事な画像を生成できるようになりました。しかし、これらのパーソナライズド画像にテキストによって現実的な動きを加えることは、独自のスタイルの維持、高精細なディテールの保持、およびテキストによる動きの制御性の実現において大きな課題を抱えています。本論文では、PIA(Personalized Image Animator)を提案します。PIAは、条件画像との整合性、テキストによる動きの制御性、および特定のチューニングを必要とせずに様々なパーソナライズドT2Iモデルとの互換性を実現します。これらの目標を達成するため、PIAは、十分に訓練された時間的整合レイヤーを備えたベースT2Iモデルを基盤として構築され、任意のパーソナライズドT2Iモデルをシームレスに画像アニメーションモデルに変換します。PIAの重要なコンポーネントは、条件モジュールの導入です。このモジュールは、条件フレームとフレーム間の親和性を入力として利用し、潜在空間内での個別フレーム合成のために親和性ヒントに導かれた外観情報を転送します。この設計により、外観関連の画像整合性の課題を軽減し、動き関連のガイダンスとの整合性に集中することが可能になります。
テキストガイドによる画像インペインティングの分野では、テキストから画像への拡散モデルの未曾有の成功に基づき、非常に現実的で視覚的に妥当な結果が得られるようになりました。しかし、現在のテキストから画像へのインペインティングモデルには、特にインペイント領域とユーザープロンプトの整合性を向上させ、高解像度でのインペインティングを実現する点で、まだ大きな改善の余地があります。そこで本論文では、プロンプトを正確に追従し、高解像度画像インペインティングにシームレスにスケールする、完全にトレーニング不要なアプローチであるHD-Painterを紹介します。この目的のために、プロンプト情報を活用して自己注意スコアを強化し、テキストとの整合性を向上させるPrompt-Aware Introverted Attention(PAIntA)層を設計しました。さらに、プロンプトの一貫性を向上させるために、Reweighting Attention Score Guidance(RASG)メカニズムを導入し、DDIMの一般的な形式に事後サンプリング戦略をシームレスに統合して、分布外の潜在シフトを防ぎます。さらに、HD-Painterは、インペインティングに特化した超解像技術を導入することで、最大2K解像度の画像における欠損領域の補完を可能にします。実験の結果、HD-Painterは既存の最先端アプローチを質的・量的に凌駕し、生成精度において61.4%対51.9%という印象的な改善を達成しました。コードは以下のURLで公開予定です: https://github.com/Picsart-AI-Research/HD-Painter
テキストから3D生成タスクにおける最近の進展では、微調整されたテキストから画像への拡散モデルを活用してマルチビュー画像を生成し、その後NeRFによる再構築を行っています。しかし、既存の教師あり微調整(SFT)拡散モデルは、依然としてマルチビューの不整合とそれに伴うNeRFのアーティファクトに悩まされています。SFTを長期間訓練することで一貫性は向上しますが、分布シフトを引き起こし、多様性と現実的な詳細が減少してしまいます。我々は、マルチビュー拡散モデルのSFTは、LLMアライメントパイプラインの指示微調整段階に類似しており、RL微調整(RLFT)手法から恩恵を受けることができると主張します。本質的に、RLFT手法は、モデル自身の出力を使用してSFTデータ分布を超えてモデルを最適化し、分布シフトを効果的に軽減します。この目的のために、我々はCarve3Dを導入します。これは、マルチビュー再構築一貫性(MRC)メトリックと組み合わせたRLFT手法であり、マルチビュー拡散モデルの一貫性を向上させます。一連のマルチビュー画像に対してMRCを計算するために、それらを同じ視点で再構築されたNeRFのレンダリングと比較します。制御された不整合レベル下での広範な実験を通じて、MRCの堅牢性を検証します。基本RLFTアルゴリズムを強化し、訓練プロセスを安定化させ、分布シフトを減少させ、スケーリング則を特定します。定性的および定量的な実験、およびユーザスタディを通じて、Carve3Dがマルチビュー一貫性を向上させ、それに伴う優れたNeRF再構築品質を実現し、長期間のSFTと比較して最小限の分布シフトを達成することを実証します。プロジェクトウェブページ: https://desaixie.github.io/carve-3d。
本論文では、テキストから高品質な3Dルームスケールシーンを生成するための3段階アプローチであるShowRoom3Dを紹介します。これまでの手法では、2D拡散事前分布を用いてニューラルラジアンスフィールド(NeRF)を最適化することでルームスケールシーンを生成していましたが、その品質は満足のいくものではありませんでした。これは主に、2D事前分布が3D認識を欠いていることと、トレーニング方法論における制約に起因しています。本論文では、3D拡散事前分布であるMVDiffusionを活用して3Dルームスケールシーンを最適化します。我々の貢献は2つの側面にあります。まず、NeRFを最適化するための段階的ビュー選択プロセスを提案します。これにより、トレーニングプロセスを3つの段階に分割し、カメラサンプリング範囲を徐々に拡大します。次に、第2段階におけるポーズ変換手法を提案します。これにより、MVDiffusionが正確なビューガイダンスを提供することが保証されます。その結果、ShowRoom3Dは、構造的な整合性が向上し、どの視点からも鮮明で、コンテンツの繰り返しが減少し、異なる視点間の一貫性が高まったルームの生成を可能にします。大規模な実験により、我々の手法がユーザースタディにおいて、最先端のアプローチを大幅に上回ることが実証されています。
セマンティック画像合成、すなわちユーザー提供のセマンティックラベルマップから画像を生成する技術は、生成される画像の内容と空間的レイアウトの両方を制御できる重要な条件付き画像生成タスクです。拡散モデルは生成画像モデリングの最先端を押し上げていますが、その推論プロセスの反復的な性質により計算コストが高くなります。一方、GAN(Generative Adversarial Network)などの他のアプローチは、生成に単一の順伝播のみを必要とするため効率的ですが、大規模で多様なデータセットでは画像品質が低下する傾向があります。本研究では、画像分類などのタスクで事前学習された特徴バックボーンネットワークを活用することで、非常にリアルな画像を生成する新しいクラスのGAN識別器を提案します。また、より優れたコンテキストモデリングを実現し、クロスアテンションを用いて潜在変数にノイズを注入することで、より多様な画像を生成する新しいジェネレータアーキテクチャを導入します。私たちがDP-SIMSと名付けたこのモデルは、ADE-20K、COCO-Stuff、Cityscapesにおいて、入力ラベルマップとの整合性と画像品質の両方で最先端の結果を達成し、最近の拡散モデルを上回りながら、推論に必要な計算量を2桁削減しています。
現在の人間の頭部モデリングの進歩により、ニューラル表現を用いて現実的な3D頭部モデルを生成することが可能になっています。しかし、明示的に制御可能なアニメーションを備えた完全な高精細頭部モデルの構築は依然として課題です。さらに、深度センサーからの部分的な観測に基づいて頭部の幾何学を完成させながら、詳細を保持することは、既存の手法ではしばしば問題となります。本論文では、明示的なアニメーションと高詳細の保持を同時に実現する、関節付き3DMM上に構築された詳細な3D頭部メッシュの生成モデルを提案します。我々の手法は2段階で学習されます。まず、最近導入された正確な3D頭部スキャンのNPHMデータセットの各メッシュに対して、頂点変位を伴うパラメトリック頭部モデルを登録します。推定された変位は、手作りされたUVレイアウトに焼き付けられます。次に、変位のUVマップを一般化するためにStyleGANモデルを学習します。パラメトリックモデルと高品質な頂点変位の分解により、モデルのアニメーションと意味的な変更が可能になります。無条件生成および完全または部分的な観測へのフィッティングの結果を示します。プロジェクトページはhttps://seva100.github.io/headcraftで公開されています。
ビデオビュー合成は、任意の視点と時間から視覚的に魅力的なフレームを作成することで、没入型の視聴体験を提供します。特にNeRFとして知られるニューラルラジアンスフィールドは、当初は静的なシーン向けに開発されましたが、ビデオビュー合成のための様々な手法の創出を促しました。しかし、ビデオビュー合成における課題は、露光中の物体やカメラの動きに起因するモーションブラーであり、これが鮮明な時空間的ビューの正確な合成を妨げます。これに対応して、我々は、ぼやけた単眼ビデオ向けの新しい動的デブラーリングNeRFフレームワーク、DyBluRFを提案します。DyBluRFは、Interleave Ray Refinement (IRR) ステージとMotion Decomposition-based Deblurring (MDD) ステージで構成されています。我々のDyBluRFは、ぼやけた単眼ビデオのための新規ビュー合成に初めて取り組み、これを処理します。IRRステージでは、動的な3Dシーンを再構築するとともに、与えられたぼやけたフレームから抽出された不正確なカメラポーズ情報に対抗するために、カメラポーズ情報を精緻化します。MDDステージは、ぼやけた単眼ビデオフレーム向けの新しい増分的潜在シャープレイ予測(ILSP)アプローチであり、潜在的なシャープレイをグローバルなカメラモーションとローカルな物体モーションの成分に分解します。広範な実験結果により、我々のDyBluRFが、質的および量的に最新の最先端手法を凌駕することが実証されています。ソースコードと事前学習済みモデルを含むプロジェクトページは、https://kaist-viclab.github.io/dyblurf-site/ で公開されています。