翻訳付きの日次キュレーションされたAI研究論文
本論文では、言語モデルを新しい時代に適応させるためのシンプルなツールであるタイムベクトルを提案します。タイムベクトルは、単一の時間(例えば、年や月)のデータで言語モデルをファインチューニングし、その後、元の事前学習済みモデルの重みを差し引くことで作成されます。このベクトルは、我々の実験が示すように、その時代のテキストに対する性能を向上させる重み空間内の方向を指定します。隣接する時代に特化したタイムベクトルは、多様体内で互いに近い位置に配置されているように見えます。この構造を利用して、タイムベクトル間を補間することで、追加の学習なしに、中間および未来の時代においてより良い性能を発揮する新しいモデルを誘導します。我々は、異なるタスク、ドメイン、モデルサイズ、時間スケールにわたって、この発見の一貫性を実証します。結果は、ファインチューニングされたモデルの重み空間に時間がエンコードされていることを示唆しています。
テキストガイドによる画像インペインティングの分野では、テキストから画像への拡散モデルの未曾有の成功に基づき、非常に現実的で視覚的に妥当な結果が得られるようになりました。しかし、現在のテキストから画像へのインペインティングモデルには、特にインペイント領域とユーザープロンプトの整合性を向上させ、高解像度でのインペインティングを実現する点で、まだ大きな改善の余地があります。そこで本論文では、プロンプトを正確に追従し、高解像度画像インペインティングにシームレスにスケールする、完全にトレーニング不要なアプローチであるHD-Painterを紹介します。この目的のために、プロンプト情報を活用して自己注意スコアを強化し、テキストとの整合性を向上させるPrompt-Aware Introverted Attention(PAIntA)層を設計しました。さらに、プロンプトの一貫性を向上させるために、Reweighting Attention Score Guidance(RASG)メカニズムを導入し、DDIMの一般的な形式に事後サンプリング戦略をシームレスに統合して、分布外の潜在シフトを防ぎます。さらに、HD-Painterは、インペインティングに特化した超解像技術を導入することで、最大2K解像度の画像における欠損領域の補完を可能にします。実験の結果、HD-Painterは既存の最先端アプローチを質的・量的に凌駕し、生成精度において61.4%対51.9%という印象的な改善を達成しました。コードは以下のURLで公開予定です: https://github.com/Picsart-AI-Research/HD-Painter
テキストから3D生成タスクにおける最近の進展では、微調整されたテキストから画像への拡散モデルを活用してマルチビュー画像を生成し、その後NeRFによる再構築を行っています。しかし、既存の教師あり微調整(SFT)拡散モデルは、依然としてマルチビューの不整合とそれに伴うNeRFのアーティファクトに悩まされています。SFTを長期間訓練することで一貫性は向上しますが、分布シフトを引き起こし、多様性と現実的な詳細が減少してしまいます。我々は、マルチビュー拡散モデルのSFTは、LLMアライメントパイプラインの指示微調整段階に類似しており、RL微調整(RLFT)手法から恩恵を受けることができると主張します。本質的に、RLFT手法は、モデル自身の出力を使用してSFTデータ分布を超えてモデルを最適化し、分布シフトを効果的に軽減します。この目的のために、我々はCarve3Dを導入します。これは、マルチビュー再構築一貫性(MRC)メトリックと組み合わせたRLFT手法であり、マルチビュー拡散モデルの一貫性を向上させます。一連のマルチビュー画像に対してMRCを計算するために、それらを同じ視点で再構築されたNeRFのレンダリングと比較します。制御された不整合レベル下での広範な実験を通じて、MRCの堅牢性を検証します。基本RLFTアルゴリズムを強化し、訓練プロセスを安定化させ、分布シフトを減少させ、スケーリング則を特定します。定性的および定量的な実験、およびユーザスタディを通じて、Carve3Dがマルチビュー一貫性を向上させ、それに伴う優れたNeRF再構築品質を実現し、長期間のSFTと比較して最小限の分布シフトを達成することを実証します。プロジェクトウェブページ: https://desaixie.github.io/carve-3d。
本論文では、テキストから高品質な3Dルームスケールシーンを生成するための3段階アプローチであるShowRoom3Dを紹介します。これまでの手法では、2D拡散事前分布を用いてニューラルラジアンスフィールド(NeRF)を最適化することでルームスケールシーンを生成していましたが、その品質は満足のいくものではありませんでした。これは主に、2D事前分布が3D認識を欠いていることと、トレーニング方法論における制約に起因しています。本論文では、3D拡散事前分布であるMVDiffusionを活用して3Dルームスケールシーンを最適化します。我々の貢献は2つの側面にあります。まず、NeRFを最適化するための段階的ビュー選択プロセスを提案します。これにより、トレーニングプロセスを3つの段階に分割し、カメラサンプリング範囲を徐々に拡大します。次に、第2段階におけるポーズ変換手法を提案します。これにより、MVDiffusionが正確なビューガイダンスを提供することが保証されます。その結果、ShowRoom3Dは、構造的な整合性が向上し、どの視点からも鮮明で、コンテンツの繰り返しが減少し、異なる視点間の一貫性が高まったルームの生成を可能にします。大規模な実験により、我々の手法がユーザースタディにおいて、最先端のアプローチを大幅に上回ることが実証されています。
現在の人間の頭部モデリングの進歩により、ニューラル表現を用いて現実的な3D頭部モデルを生成することが可能になっています。しかし、明示的に制御可能なアニメーションを備えた完全な高精細頭部モデルの構築は依然として課題です。さらに、深度センサーからの部分的な観測に基づいて頭部の幾何学を完成させながら、詳細を保持することは、既存の手法ではしばしば問題となります。本論文では、明示的なアニメーションと高詳細の保持を同時に実現する、関節付き3DMM上に構築された詳細な3D頭部メッシュの生成モデルを提案します。我々の手法は2段階で学習されます。まず、最近導入された正確な3D頭部スキャンのNPHMデータセットの各メッシュに対して、頂点変位を伴うパラメトリック頭部モデルを登録します。推定された変位は、手作りされたUVレイアウトに焼き付けられます。次に、変位のUVマップを一般化するためにStyleGANモデルを学習します。パラメトリックモデルと高品質な頂点変位の分解により、モデルのアニメーションと意味的な変更が可能になります。無条件生成および完全または部分的な観測へのフィッティングの結果を示します。プロジェクトページはhttps://seva100.github.io/headcraftで公開されています。