翻訳付きの日次キュレーションされたAI研究論文
Segment Anything Model(SAM)は、ポイントなどのインタラクティブなプロンプトを用いてマスクを生成する強力なゼロショット画像セグメンテーションモデルとして確立されています。本論文では、SAMの機能を動的ビデオにおける追跡とセグメンテーションに拡張する手法であるSAM-PTを提案します。SAM-PTは、ロバストで疎なポイント選択と伝播技術を活用してマスクを生成し、SAMベースのセグメンテーショントラッカーがDAVIS、YouTube-VOS、MOSEなどの人気のあるビデオオブジェクトセグメンテーションベンチマークで強力なゼロショット性能を発揮することを実証しています。従来のオブジェクト中心のマスク伝播戦略と比較して、我々はオブジェクトの意味論に依存しない局所構造情報を活用するために、ポイント伝播を独自に使用します。ゼロショットオープンワールドのUnidentified Video Objects(UVO)ベンチマークでの直接評価を通じて、ポイントベース追跡の利点を強調します。アプローチをさらに強化するため、K-Medoidsクラスタリングをポイント初期化に活用し、対象オブジェクトを明確に区別するためにポジティブポイントとネガティブポイントの両方を追跡します。また、マスク精製のための複数回のマスクデコード処理を採用し、追跡精度を向上させるポイント再初期化戦略を考案しました。我々のコードは様々なポイントトラッカーとビデオセグメンテーションベンチマークを統合し、https://github.com/SysCV/sam-pt で公開予定です。
近年の大規模テキスト誘導拡散モデルは、強力な画像生成能力を提供している。現在、これらの画像をテキストのみを用いて直感的かつ多様な編集を可能にするための重要な取り組みが進められている。しかし、編集技術には元画像の特定の内容を保持するという本質的な性質があるため、生成モデルによる編集は困難であることが証明されている。一方、テキストベースのモデルでは、プロンプトのわずかな変更でさえ全く異なる結果を生じることが頻繁にあり、ユーザーの意図を正確に反映したワンショット生成の達成は極めて困難である。さらに、これらの最先端ツールを用いて実画像を編集するには、事前学習済みモデルの領域に画像を反転(インバージョン)する必要があり、編集品質とレイテンシに影響する別の要因が加わる。本探索的報告では、LEDITSを提案する。これは実画像編集のための軽量な統合アプローチであり、Edit Friendly DDPM逆拡散技術とセマンティックガイダンスを組み合わせることで、セマンティックガイダンスを実画像編集に拡張するとともに、DDPM逆拡散の編集能力も活用する。この手法は、構図やスタイルの変更を含む、微妙な編集から大規模な編集まで多様な編集を実現し、最適化やアーキテクチャの拡張を必要としない。
生成AIは、特にテキスト記述に条件付けられた画像・動画合成において、コンピュータビジョン分野で著しい進歩を遂げてきた。しかしながら、ダンス合成のような人物中心のコンテンツ生成では、依然として課題が残っている。既存のダンス合成手法は、合成されたコンテンツと実世界のダンスシナリオとの間に存在する隔たりに苦戦している。本論文では、実世界のダンスシナリオに焦点を当てた新しい問題設定「参照人物ダンス生成」を定義する。この設定には以下の3つの重要な特性がある:(i)忠実性:合成結果は参照画像から人物前景と背景の外観を保持し、ターゲットポーズを正確に追従すること、(ii)一般化性:モデルは未見の人物、背景、ポーズに対して一般化できること、(iii)構成性:異なるソースから得られた既知/未知の人物、背景、ポーズの組み合わせを可能にすること。これらの課題に対処するため、我々は新しいアプローチDISCOを提案する。DISCOは、ダンス合成の忠実性と構成性を向上させる分離制御を備えた新しいモデルアーキテクチャと、未見の人物への一般化性を高める効果的人物属性事前学習を含む。大規模な定性的・定量的評価により、DISCOが多様な外観と柔軟な動きを備えた高品質な人物ダンス画像・動画を生成できることが実証されている。コード、デモ、動画、可視化結果は以下で公開されている:https://disco-dance.github.io/。
大規模言語モデル(LLM)の登場は自然言語処理に革命をもたらし、首尾一貫した文脈的に適切なテキスト生成を可能にした。会話エージェントの基盤としてLLMが普及するにつれ、人間が生成した大量のデータで訓練されることでこれらのモデルに内在する合成パーソナリティが注目を集めている。パーソナリティはコミュニケーションの効果を決定する重要な要素であるため、本論文では検証済みの心理測定テストを実施し、広く利用されているLLMから生成されるテキストに表れるパーソナリティ特性を定量化・分析・形成する包括的手法を提案する。以下の知見を得た:1)特定のプロンプト設定下での一部LLMの出力においてシミュレートされるパーソナリティは信頼性と妥当性を有する、2)LLMシミュレーションパーソナリティの信頼性・妥当性の証拠は、大規模で指示チューニングされたモデルにおいてより顕著である、3)LLM出力のパーソナリティは所望の次元に沿って形成し、特定のパーソナリティプロファイルを模倣可能である。さらに、測定・形成フレームワークの潜在的な応用可能性と倫理的影響、特にLLMの責任ある利用に関する課題についても考察する。
近年の視覚言語モデルの進歩はマルチモーダル理解に革命をもたらしたが、生成画像を理解する能力を本当に備えているかは未だ明らかではない。実写データと比較して、合成画像は内容とスタイルの両方において多様性が高く、モデルが完全に理解するには大きな困難が伴う。この課題に対処するため、我々は生成画像におけるマルチモーダル視覚理解のための大規模データセットJourneyDBを提案する。構築したデータセットは、400万点の多様で高品質な生成画像と、それらの生成に使用されたテキストプロンプトをペアとして包含する。さらに、生成画像理解の性能を内容解釈とスタイル解釈の両面から定量化するため、4つのベンチマークを設計した。これにはプロンプト逆変換、スタイル検索、画像キャプション生成、視覚質問応答が含まれる。最後に、JourneyDBに適用した現状の最先端マルチモーダルモデルの性能を評価し、生成コンテンツ理解における強みと限界について詳細な分析を提供する。提案するデータセットとベンチマークが、生成コンテンツ理解の分野における研究を促進することを期待する。データセットはhttps://journeydb.github.ioで公開予定である。
本論文は、パノラマからの透視投影クロップやジオメトリ(深度マップと姿勢)が与えられた多視点画像など、ピクセル間対応が利用可能なシナリオにおける、シンプルかつ効果的な多視点画像生成手法MVDiffusionを提案する。従来の反復的な画像ワーピングとインペインティングに依存するモデルとは異なり、MVDiffusionは高解像度かつ豊富なコンテンツを包含する大域的な認識を持って全ての画像を同時生成し、従来モデルに共通する誤差蓄積問題を効果的に解決する。MVDiffusionは特に、効果的な視点間相互作用を可能にする対応認識注意機構を組み込んでおり、この機構が以下の3つの重要モジュールを支えている:1)大域的な対応を維持しながら低解像度画像を生成する生成モジュール、2)画像間の空間的な被覆密度を高める補間モジュール、3)高解像度出力へアップスケールする超解像モジュール。パノラマ画像生成においては、MVDiffusionは1024×1024ピクセルまでの高解像度フォトリアルな画像を生成可能である。ジオメトリ条件付き多視点画像生成においては、MVDiffusionはシーンメッシュのテクスチャマップを生成可能な初の手法としてその性能を実証する。プロジェクトページはhttps://mvdiffusion.github.ioにて公開されている。
単眼モーションキャプチャにおける学習ベースのアプローチは、データ駆動型の回帰学習により最近有望な結果を示しています。しかし、データ収集とネットワーク設計の課題から、既存のソリューションがワールド空間で正確かつリアルタイムの全身キャプチャを実現することは依然として困難です。本研究では、2Dスケルトンシーケンスとワールド空間における3D回転モーションからなるプロキシデータセットと、順次的なプロキシからモーションへの学習スキームを提案します。このプロキシデータにより、正確な全身監視を伴う学習ベースのネットワークを構築できると同時に、一般化の問題も軽減できます。より正確で物理的に妥当な予測を行うため、ネットワーク内に接触を考慮したニューラルモーション降下モジュールを提案し、足と地面の接触およびプロキシ観測とのモーションのずれを認識できるようにします。さらに、ネットワーク内で身体と手のコンテキスト情報を共有し、全身モデルとの互換性が高い手首の姿勢復元を実現します。提案する学習ベースのソリューションにより、ワールド空間で足と地面の接触が妥当な、初のリアルタイム単眼全身キャプチャシステムを実証します。より多くのビデオ結果はプロジェクトページ(https://liuyebin.com/proxycap)でご覧いただけます。
大規模言語モデルは、Few-shot NLPタスクにおいて印象的な結果を示しています。しかし、これらのモデルはメモリと計算量を大量に消費します。メタトレーニングを用いることで、ドメイン汎用的かつタスク非依存的な方法で、Few-shot汎化のために小さなモデルを活用することが可能です。しかし、これらの手法だけでは、多様なタスクに迅速に適応するための十分なパラメータ化や知識を備えたモデルを得られない場合があります。この問題を克服するために、我々はデモンストレーション検索を伴うメタトレーニングを提案します。ここでは、密なパッセージ検索器を使用して、各例に対して意味的に類似したラベル付きデモンストレーションを検索し、より多様な監督を実現します。外部知識をモデルパラメータから分離することで、メタトレーニングを用いて、多様なタスクにおいて良好に汎化するパラメータ効率の良いモデルを訓練することができます。我々はUnifiedQAとCrossFitからメタトレーニングセットを構築し、UnifiedQAタスクに基づくデモンストレーションバンクを提案します。我々の知る限り、我々の研究は、検索とメタトレーニングを組み合わせた最初のものであり、DPRモデルを使用してデモンストレーションを検索し、ターゲットタスクの訓練セットからランダムにデモンストレーションをサンプリングするのではなく、多くのタスクから同時にデモンストレーションを活用する初めての試みです。我々のアプローチは、QA、NLI、テキスト分類タスク(SQuAD、QNLI、TRECを含む)において、様々なターゲットパラメータ効率および検索拡張Few-shot手法を上回ります。我々のアプローチは、単一のGPUで迅速にメタトレーニングおよびファインチューニングすることが可能です。
事前学習済み言語モデル(PLM)は、現在、自然言語処理の主要なモデルとなっている。その下流タスクにおける印象的な性能にもかかわらず、PLMを新しい言語に適用することは難しく、その能力を普遍的に利用可能にする上での障壁となっている。これまでの研究では、新しい言語に対して新たな埋め込み層を学習することでこの問題に対処できることが示されているが、この方法はデータと計算資源の両面で非効率的である。本論文では、事前学習中にアクティブな忘却メカニズムを使用することを提案し、新しい言語に迅速に適応可能なPLMを作成するシンプルな方法を提示する。具体的には、事前学習中にK回の更新ごとに埋め込み層をリセットすることで、PLMが限られた更新回数内で新しい埋め込みを学習する能力を向上させるよう促し、メタ学習に似た効果を生み出す。RoBERTaを用いた実験では、我々の忘却メカニズムを用いて事前学習されたモデルが、言語適応中に速い収束を示すだけでなく、特に英語から遠い言語において、低データ環境で標準的なモデルを上回る性能を示すことが確認された。
私たちの目標は、ロボットが「タオルを電子レンジの横に置いて」のような自然言語の指示に従うことです。しかし、タスクのデモンストレーションと言語指示がラベル付けされた大量のデータを取得することは困難です。一方で、画像目標に応答するポリシーを取得するのははるかに容易です。なぜなら、どの自律的な試行やデモンストレーションも、その最終状態を目標として後からラベル付けできるからです。本研究では、少量の言語データのみを使用して、画像と目標条件付きポリシーと言語を連携させる手法を提案します。これまでの研究では、視覚-言語モデルを使用したり、言語-目標条件付きポリシーを共同で訓練することで進展がありましたが、いずれの方法も、人間による大幅な注釈なしに現実世界のロボットタスクに効果的にスケールすることはできませんでした。私たちの手法は、ラベル付けされたデータから埋め込みを学習することで、言語を目標画像ではなく、指示に対応する開始画像と目標画像の間の望ましい変化に整合させることで、現実世界で堅牢な性能を達成します。その後、この埋め込みに基づいてポリシーを訓練します。ポリシーはすべてのラベルなしデータから恩恵を受けますが、整合された埋め込みは、言語がポリシーを導くためのインターフェースを提供します。私たちは、さまざまなシーンでの多様な操作タスクにわたる指示追従を示し、ラベル付けされたデータ外の言語指示への一般化を示します。私たちのアプローチのビデオとコードは、ウェブサイトhttp://tiny.cc/grifで見つけることができます。
3Dアバターのモデリングは、AR/VR、ゲーム、映画制作など、さまざまな応用シナリオにおいて利点があります。キャラクターの顔は、アバターの重要な構成要素として、多様性と臨場感を大きく貢献します。しかし、3Dキャラクターの顔モデルを構築するには、商用ツールを使用しても、経験豊富なアーティストにとって多大な作業量が必要です。既存のスケッチベースのツールの多くは、アマチュアが多様な顔の形状や豊かな幾何学的詳細をモデリングするのを支援できていません。本論文では、アマチュアユーザーが数分で高精細な3D顔をモデリングするためのスケッチシステム「SketchMetaFace」を提案します。ユーザーインターフェースと基盤となるアルゴリズムの両方を慎重に設計しました。まず、顔の詳細を彫り込む際の制御性を向上させるために、曲率を考慮したストロークを採用しました。次に、2Dスケッチマップを3Dモデルにマッピングするという重要な問題に対処するため、「Implicit and Depth Guided Mesh Modeling」(IDGMM)と呼ばれる新しい学習ベースの手法を開発しました。これは、メッシュ、陰関数、深度表現の利点を融合し、高品質な結果を効率的に達成します。さらに、使いやすさをさらに支援するために、粗から細への2Dスケッチインターフェース設計と、データ駆動型のストローク提案ツールを提示します。ユーザー調査により、当システムの使いやすさと結果の視覚的品質が既存のモデリングツールを上回ることが実証されました。実験分析では、IDGMMが精度と効率性の間でより良いトレードオフを達成していることも示されています。SketchMetaFaceはhttps://zhongjinluo.github.io/SketchMetaFace/で利用可能です。