翻訳付きの日次キュレーションされたAI研究論文
大規模言語モデル(LLM)の最近の進展により、複雑なタスクを実行可能なインテリジェントエージェントの開発が進んでいます。本論文では、スマートフォンアプリケーションを操作するための新しいLLMベースのマルチモーダルエージェントフレームワークを紹介します。このフレームワークは、タップやスワイプといった人間のようなインタラクションを模倣した簡素化されたアクション空間を通じて、エージェントがスマートフォンアプリケーションを操作することを可能にします。この新しいアプローチは、システムのバックエンドアクセスを必要としないため、多様なアプリケーションへの適用範囲が広がります。エージェントの機能の中核となるのは、その革新的な学習方法です。エージェントは、自律的な探索や人間のデモンストレーションを観察することで、新しいアプリケーションのナビゲートと使用方法を学習します。このプロセスにより、エージェントが異なるアプリケーション間で複雑なタスクを実行する際に参照する知識ベースが生成されます。本エージェントの実用性を実証するため、ソーシャルメディア、メール、地図、ショッピング、高度な画像編集ツールなど、10種類の異なるアプリケーションにおける50のタスクに対して広範なテストを実施しました。その結果、本エージェントが多様な高レベルタスクを扱う能力に優れていることが確認されました。
本論文では、Paint3Dという新しい粗密生成フレームワークを提案する。このフレームワークは、テキストや画像入力を条件として、未テクスチャの3Dメッシュに対して高解像度で照明情報を含まない多様な2K UVテクスチャマップを生成することができる。本手法が取り組む主要な課題は、埋め込まれた照明情報を含まない高品質なテクスチャを生成することであり、これにより、現代のグラフィックスパイプライン内でテクスチャを再照明または再編集することが可能となる。これを実現するため、本手法ではまず、事前学習済みの深度認識2D拡散モデルを活用して視点条件付き画像を生成し、マルチビューテクスチャ融合を行い、初期の粗いテクスチャマップを作成する。しかし、2Dモデルは3D形状を完全に表現できず、照明効果を無効化できないため、粗いテクスチャマップには不完全な領域や照明アーティファクトが現れる。これを解決するために、不完全な領域の形状認識リファインメントと照明アーティファクトの除去に特化したUV InpaintingおよびUVHD拡散モデルを別々に学習する。この粗密プロセスを通じて、Paint3Dはセマンティック一貫性を維持しつつ照明情報を含まない高品質な2K UVテクスチャを生成することができ、3Dオブジェクトのテクスチャリングにおける最先端技術を大幅に進展させる。
最近のパーソナライズドテキスト-to-イメージ(T2I)モデルの進展は、コンテンツ作成に革命をもたらし、非専門家でも独自のスタイルで見事な画像を生成できるようになりました。しかし、これらのパーソナライズド画像にテキストによって現実的な動きを加えることは、独自のスタイルの維持、高精細なディテールの保持、およびテキストによる動きの制御性の実現において大きな課題を抱えています。本論文では、PIA(Personalized Image Animator)を提案します。PIAは、条件画像との整合性、テキストによる動きの制御性、および特定のチューニングを必要とせずに様々なパーソナライズドT2Iモデルとの互換性を実現します。これらの目標を達成するため、PIAは、十分に訓練された時間的整合レイヤーを備えたベースT2Iモデルを基盤として構築され、任意のパーソナライズドT2Iモデルをシームレスに画像アニメーションモデルに変換します。PIAの重要なコンポーネントは、条件モジュールの導入です。このモジュールは、条件フレームとフレーム間の親和性を入力として利用し、潜在空間内での個別フレーム合成のために親和性ヒントに導かれた外観情報を転送します。この設計により、外観関連の画像整合性の課題を軽減し、動き関連のガイダンスとの整合性に集中することが可能になります。
セマンティック画像合成、すなわちユーザー提供のセマンティックラベルマップから画像を生成する技術は、生成される画像の内容と空間的レイアウトの両方を制御できる重要な条件付き画像生成タスクです。拡散モデルは生成画像モデリングの最先端を押し上げていますが、その推論プロセスの反復的な性質により計算コストが高くなります。一方、GAN(Generative Adversarial Network)などの他のアプローチは、生成に単一の順伝播のみを必要とするため効率的ですが、大規模で多様なデータセットでは画像品質が低下する傾向があります。本研究では、画像分類などのタスクで事前学習された特徴バックボーンネットワークを活用することで、非常にリアルな画像を生成する新しいクラスのGAN識別器を提案します。また、より優れたコンテキストモデリングを実現し、クロスアテンションを用いて潜在変数にノイズを注入することで、より多様な画像を生成する新しいジェネレータアーキテクチャを導入します。私たちがDP-SIMSと名付けたこのモデルは、ADE-20K、COCO-Stuff、Cityscapesにおいて、入力ラベルマップとの整合性と画像品質の両方で最先端の結果を達成し、最近の拡散モデルを上回りながら、推論に必要な計算量を2桁削減しています。
ビデオビュー合成は、任意の視点と時間から視覚的に魅力的なフレームを作成することで、没入型の視聴体験を提供します。特にNeRFとして知られるニューラルラジアンスフィールドは、当初は静的なシーン向けに開発されましたが、ビデオビュー合成のための様々な手法の創出を促しました。しかし、ビデオビュー合成における課題は、露光中の物体やカメラの動きに起因するモーションブラーであり、これが鮮明な時空間的ビューの正確な合成を妨げます。これに対応して、我々は、ぼやけた単眼ビデオ向けの新しい動的デブラーリングNeRFフレームワーク、DyBluRFを提案します。DyBluRFは、Interleave Ray Refinement (IRR) ステージとMotion Decomposition-based Deblurring (MDD) ステージで構成されています。我々のDyBluRFは、ぼやけた単眼ビデオのための新規ビュー合成に初めて取り組み、これを処理します。IRRステージでは、動的な3Dシーンを再構築するとともに、与えられたぼやけたフレームから抽出された不正確なカメラポーズ情報に対抗するために、カメラポーズ情報を精緻化します。MDDステージは、ぼやけた単眼ビデオフレーム向けの新しい増分的潜在シャープレイ予測(ILSP)アプローチであり、潜在的なシャープレイをグローバルなカメラモーションとローカルな物体モーションの成分に分解します。広範な実験結果により、我々のDyBluRFが、質的および量的に最新の最先端手法を凌駕することが実証されています。ソースコードと事前学習済みモデルを含むプロジェクトページは、https://kaist-viclab.github.io/dyblurf-site/ で公開されています。