翻訳付きの日次キュレーションされたAI研究論文
Segment Anything Model(SAM)は、ポイントなどのインタラクティブなプロンプトを使用してマスクを生成する強力なゼロショット画像セグメンテーションモデルとして確立されています。本論文では、SAMの機能を動画における追跡とセグメンテーションに拡張する手法であるSAM-PTを提案します。SAM-PTは、堅牢で疎なポイント選択と伝播技術を活用してマスクを生成し、SAMベースのセグメンテーショントラッカーがDAVIS、YouTube-VOS、MOSEなどの人気のあるビデオオブジェクトセグメンテーションベンチマークで強力なゼロショット性能を発揮することを実証しています。従来のオブジェクト中心のマスク伝播戦略と比較して、我々はオブジェクトの意味論に依存しない局所構造情報を活用するためにポイント伝播を独自に使用します。ゼロショットのオープンワールドベンチマークであるUnidentified Video Objects(UVO)での直接評価を通じて、ポイントベースの追跡の利点を強調します。さらに、アプローチを強化するために、K-Medoidsクラスタリングをポイント初期化に利用し、ターゲットオブジェクトを明確に区別するためにポジティブとネガティブの両方のポイントを追跡します。また、マスクの精緻化のために複数のマスクデコードパスを採用し、追跡精度を向上させるためのポイント再初期化戦略を考案します。我々のコードは、異なるポイントトラッカーとビデオセグメンテーションベンチマークを統合し、https://github.com/SysCV/sam-pt で公開されます。
最近の大規模なテキスト誘導型拡散モデルは、強力な画像生成能力を提供しています。現在、これらの画像をテキストのみを用いて直感的かつ多様に編集するための手法の開発に多大な努力が注がれています。しかし、編集技術の本質的な性質として、元の画像から特定の内容を保持する必要があるため、これらの生成モデルによる編集は困難であることが判明しています。一方、テキストベースのモデルでは、テキストプロンプトのわずかな変更でも全く異なる結果が得られることが多く、ユーザーの意図に正確に対応したワンショット生成を実現することは非常に困難です。さらに、最先端のツールを使用して実画像を編集するためには、まず画像を事前学習済みモデルの領域に反転させる必要があり、これが編集品質や遅延に影響を与える要因となっています。この探索的レポートでは、LEDITSを提案します。これは、実画像編集のための軽量な統合アプローチであり、Edit Friendly DDPM反転技術とセマンティックガイダンスを組み合わせることで、セマンティックガイダンスを実画像編集に拡張しつつ、DDPM反転の編集能力も活用します。このアプローチは、微妙な編集から大規模な編集、構図やスタイルの変更まで多様な編集を実現し、最適化やアーキテクチャの拡張を必要としません。
生成AIは、特にテキスト記述に基づく画像/動画合成において、コンピュータビジョン分野で大きな進展を遂げてきました。しかしながら、ダンス合成のような人間中心のコンテンツ生成においては、依然として課題が残されています。既存のダンス合成手法は、合成されたコンテンツと現実世界のダンスシーンとの間に存在するギャップに苦戦しています。本論文では、現実世界のダンスシーンに焦点を当てた新しい問題設定「Referring Human Dance Generation」を定義します。この設定には、以下の3つの重要な特性があります:(i) 忠実性:合成結果は、参照画像から人間の前景と背景の外観を保持し、ターゲットポーズを正確に追従する必要がある、(ii) 汎用性:モデルは未見の人間、背景、ポーズに対して一般化できる必要がある、(iii) 構成性:異なるソースから見た/未見の被写体、背景、ポーズを組み合わせることが可能である必要がある。これらの課題に対処するため、我々は新しいアプローチ「DISCO」を提案します。DISCOは、ダンス合成の忠実性と構成性を向上させるための分離制御を備えた新しいモデルアーキテクチャと、未見の人間に対するより良い汎用性を実現するための効果的な人間属性事前学習を含んでいます。大規模な定性的および定量的な結果により、DISCOが多様な外観と柔軟な動きを備えた高品質な人間のダンス画像と動画を生成できることが実証されています。コード、デモ、動画、可視化は以下のURLで公開されています:https://disco-dance.github.io/。
大規模言語モデル(LLM)の登場は、自然言語処理に革命をもたらし、一貫性があり文脈に即したテキストの生成を可能にしました。LLMが会話エージェントの基盤としてますます活用される中、これらのモデルに埋め込まれた合成パーソナリティが注目を集めています。これは、LLMが大量の人間が生成したデータで訓練されることによって形成されるものです。パーソナリティはコミュニケーションの効果を決定する重要な要素であるため、本論文では、広く使用されているLLMから生成されるテキストに表れるパーソナリティ特性を測定・分析・形成するための包括的な方法を提示します。具体的には、検証済みの心理測定テストを実施し、それらを定量化する手法を提案します。その結果、以下のことが明らかになりました:1)特定のプロンプト設定下では、一部のLLMの出力にシミュレートされたパーソナリティは信頼性と妥当性を有している、2)LLMがシミュレートするパーソナリティの信頼性と妥当性の証拠は、より大規模で指示ファインチューニングされたモデルにおいて強くなる、3)LLMの出力におけるパーソナリティは、特定のパーソナリティプロファイルを模倣するよう、所望の次元に沿って形成可能である。また、本測定・形成フレームワークの潜在的な応用と倫理的影響、特にLLMの責任ある使用に関する課題についても議論します。
近年の視覚言語モデルの進歩はマルチモーダル理解に革命をもたらしましたが、生成された画像を理解する能力を備えているかどうかは依然として不明です。実データと比較して、合成画像は内容とスタイルの両方において多様性が高く、モデルが完全に理解するには大きな困難が伴います。この目的のために、生成画像におけるマルチモーダル視覚理解のための大規模データセット、JourneyDBを提案します。私たちが精選したデータセットは、それらを生成するために使用されたテキストプロンプトとペアになった400万枚の多様で高品質な生成画像をカバーしています。さらに、生成画像の理解性能を内容とスタイルの解釈の観点から定量化するために4つのベンチマークを設計しました。これらのベンチマークには、プロンプト逆変換、スタイル検索、画像キャプショニング、視覚的質問応答が含まれます。最後に、JourneyDBに適用した現在の最先端のマルチモーダルモデルの性能を評価し、生成された内容の理解におけるそれらの強みと限界について詳細な分析を提供します。提案されたデータセットとベンチマークが、生成内容理解の分野における研究を促進することを期待しています。データセットはhttps://journeydb.github.ioで公開されます。
本論文では、MVDiffusionを紹介する。これは、パノラマからの視点切り抜きやジオメトリ(深度マップとポーズ)が与えられた多視点画像など、ピクセル間の対応関係が利用可能なシナリオにおいて、シンプルかつ効果的な多視点画像生成手法である。従来のモデルが反復的な画像ワーピングとインペインティングに依存していたのに対し、MVDiffusionはすべての画像を並列的に生成し、高解像度かつ豊富な内容を包含するグローバルな認識を持つことで、先行モデルに顕著だった誤差蓄積の問題を効果的に解決する。MVDiffusionは特に、対応関係を意識したアテンションメカニズムを組み込んでおり、効果的なクロスビュー相互作用を可能にする。このメカニズムは、以下の3つの重要なモジュールを支えている:1)グローバルな対応関係を維持しながら低解像度画像を生成する生成モジュール、2)画像間の空間的カバレッジを密にする補間モジュール、3)高解像度出力にアップスケールする超解像モジュール。パノラマ画像に関しては、MVDiffusionは1024×1024ピクセルまでの高解像度フォトリアリスティック画像を生成できる。ジオメトリ条件付きの多視点画像生成においては、MVDiffusionはシーンメッシュのテクスチャマップを生成できる初の手法としてその能力を示す。プロジェクトページはhttps://mvdiffusion.github.ioにて公開されている。
単眼モーションキャプチャにおける学習ベースのアプローチは、データ駆動型の回帰学習により最近有望な結果を示しています。しかし、データ収集とネットワーク設計の課題から、既存のソリューションがワールド空間で正確かつリアルタイムの全身キャプチャを実現することは依然として困難です。本研究では、2Dスケルトンシーケンスとワールド空間における3D回転モーションからなるプロキシデータセットと、順次的なプロキシからモーションへの学習スキームを提案します。このプロキシデータにより、正確な全身監視を伴う学習ベースのネットワークを構築できると同時に、一般化の問題も軽減できます。より正確で物理的に妥当な予測を行うため、ネットワーク内に接触を考慮したニューラルモーション降下モジュールを提案し、足と地面の接触およびプロキシ観測とのモーションのずれを認識できるようにします。さらに、ネットワーク内で身体と手のコンテキスト情報を共有し、全身モデルとの互換性が高い手首の姿勢復元を実現します。提案する学習ベースのソリューションにより、ワールド空間で足と地面の接触が妥当な、初のリアルタイム単眼全身キャプチャシステムを実証します。より多くのビデオ結果はプロジェクトページ(https://liuyebin.com/proxycap)でご覧いただけます。
事前学習済み言語モデル(PLM)は、現在、自然言語処理の主要なモデルとなっている。その下流タスクにおける印象的な性能にもかかわらず、PLMを新しい言語に適用することは難しく、その能力を普遍的に利用可能にする上での障壁となっている。これまでの研究では、新しい言語に対して新たな埋め込み層を学習することでこの問題に対処できることが示されているが、この方法はデータと計算資源の両面で非効率的である。本論文では、事前学習中にアクティブな忘却メカニズムを使用することを提案し、新しい言語に迅速に適応可能なPLMを作成するシンプルな方法を提示する。具体的には、事前学習中にK回の更新ごとに埋め込み層をリセットすることで、PLMが限られた更新回数内で新しい埋め込みを学習する能力を向上させるよう促し、メタ学習に似た効果を生み出す。RoBERTaを用いた実験では、我々の忘却メカニズムを用いて事前学習されたモデルが、言語適応中に速い収束を示すだけでなく、特に英語から遠い言語において、低データ環境で標準的なモデルを上回る性能を示すことが確認された。
大規模言語モデルは、Few-shot NLPタスクにおいて印象的な結果を示しています。しかし、これらのモデルはメモリと計算量を大量に消費します。メタトレーニングを用いることで、ドメイン汎用的かつタスク非依存的な方法で、Few-shot汎化のために小さなモデルを活用することが可能です。しかし、これらの手法だけでは、多様なタスクに迅速に適応するための十分なパラメータ化や知識を備えたモデルを得られない場合があります。この問題を克服するために、我々はデモンストレーション検索を伴うメタトレーニングを提案します。ここでは、密なパッセージ検索器を使用して、各例に対して意味的に類似したラベル付きデモンストレーションを検索し、より多様な監督を実現します。外部知識をモデルパラメータから分離することで、メタトレーニングを用いて、多様なタスクにおいて良好に汎化するパラメータ効率の良いモデルを訓練することができます。我々はUnifiedQAとCrossFitからメタトレーニングセットを構築し、UnifiedQAタスクに基づくデモンストレーションバンクを提案します。我々の知る限り、我々の研究は、検索とメタトレーニングを組み合わせた最初のものであり、DPRモデルを使用してデモンストレーションを検索し、ターゲットタスクの訓練セットからランダムにデモンストレーションをサンプリングするのではなく、多くのタスクから同時にデモンストレーションを活用する初めての試みです。我々のアプローチは、QA、NLI、テキスト分類タスク(SQuAD、QNLI、TRECを含む)において、様々なターゲットパラメータ効率および検索拡張Few-shot手法を上回ります。我々のアプローチは、単一のGPUで迅速にメタトレーニングおよびファインチューニングすることが可能です。
私たちの目標は、ロボットが「タオルを電子レンジの横に置いて」のような自然言語の指示に従うことです。しかし、タスクのデモンストレーションと言語指示がラベル付けされた大量のデータを取得することは困難です。一方で、画像目標に応答するポリシーを取得するのははるかに容易です。なぜなら、どの自律的な試行やデモンストレーションも、その最終状態を目標として後からラベル付けできるからです。本研究では、少量の言語データのみを使用して、画像と目標条件付きポリシーと言語を連携させる手法を提案します。これまでの研究では、視覚-言語モデルを使用したり、言語-目標条件付きポリシーを共同で訓練することで進展がありましたが、いずれの方法も、人間による大幅な注釈なしに現実世界のロボットタスクに効果的にスケールすることはできませんでした。私たちの手法は、ラベル付けされたデータから埋め込みを学習することで、言語を目標画像ではなく、指示に対応する開始画像と目標画像の間の望ましい変化に整合させることで、現実世界で堅牢な性能を達成します。その後、この埋め込みに基づいてポリシーを訓練します。ポリシーはすべてのラベルなしデータから恩恵を受けますが、整合された埋め込みは、言語がポリシーを導くためのインターフェースを提供します。私たちは、さまざまなシーンでの多様な操作タスクにわたる指示追従を示し、ラベル付けされたデータ外の言語指示への一般化を示します。私たちのアプローチのビデオとコードは、ウェブサイトhttp://tiny.cc/grifで見つけることができます。
3Dアバターのモデリングは、AR/VR、ゲーム、映画制作など、さまざまな応用シナリオにおいて利点があります。キャラクターの顔は、アバターの重要な構成要素として、多様性と臨場感を大きく貢献します。しかし、3Dキャラクターの顔モデルを構築するには、商用ツールを使用しても、経験豊富なアーティストにとって多大な作業量が必要です。既存のスケッチベースのツールの多くは、アマチュアが多様な顔の形状や豊かな幾何学的詳細をモデリングするのを支援できていません。本論文では、アマチュアユーザーが数分で高精細な3D顔をモデリングするためのスケッチシステム「SketchMetaFace」を提案します。ユーザーインターフェースと基盤となるアルゴリズムの両方を慎重に設計しました。まず、顔の詳細を彫り込む際の制御性を向上させるために、曲率を考慮したストロークを採用しました。次に、2Dスケッチマップを3Dモデルにマッピングするという重要な問題に対処するため、「Implicit and Depth Guided Mesh Modeling」(IDGMM)と呼ばれる新しい学習ベースの手法を開発しました。これは、メッシュ、陰関数、深度表現の利点を融合し、高品質な結果を効率的に達成します。さらに、使いやすさをさらに支援するために、粗から細への2Dスケッチインターフェース設計と、データ駆動型のストローク提案ツールを提示します。ユーザー調査により、当システムの使いやすさと結果の視覚的品質が既存のモデリングツールを上回ることが実証されました。実験分析では、IDGMMが精度と効率性の間でより良いトレードオフを達成していることも示されています。SketchMetaFaceはhttps://zhongjinluo.github.io/SketchMetaFace/で利用可能です。