翻訳付きの日次キュレーションされたAI研究論文
Transformerアーキテクチャには、埋め込み層以外に2つの主要なコンポーネントが存在します:AttentionとFeed Forward Network(FFN)です。Attentionは単語間の相互依存関係を位置に関係なく捉えるのに対し、FFNは各入力トークンを独立して非線形変換します。本研究ではFFNの役割を探り、モデルのパラメータの大部分を占めるにもかかわらず、FFNが高度に冗長であることを発見しました。具体的には、デコーダ層のFFNを除去し、エンコーダ全体で単一のFFNを共有することで、精度の低下を最小限に抑えつつ大幅なパラメータ削減を実現しました。最後に、共有FFNの隠れ層次元を増やすことでアーキテクチャを元のサイズに戻し、オリジナルのTransformer Bigと比較して精度とレイテンシの両面で大幅な向上を達成しました。
従来の人間生成向けアニメーション可能な3D-aware GANは、主に頭部または全身に焦点を当ててきました。しかし、頭部のみの映像は実生活では比較的珍しく、全身生成では通常、表情の制御を扱わず、高品質な結果の生成において依然として課題があります。実用的なビデオアバターに向けて、本論文では、表情、頭部姿勢、肩の動きを制御可能なポートレート画像を生成するアニメーション可能な3D-aware GANを提案します。これは、3Dデータや映像データを使用せずに、非構造化された2D画像コレクションで訓練された生成モデルです。この新しいタスクに向けて、我々の手法は生成的放射多様体表現に基づいており、学習可能な顔と頭部-肩の変形を備えています。ポートレート画像にとって重要な生成された顔の品質を向上させるために、デュアルカメラレンダリングと敵対的学習スキームを提案します。長い髪などの挑戦的な領域に対して妥当な変形を生成するために、ポーズ変形処理ネットワークを開発しました。実験結果は、非構造化された2D画像で訓練された我々の手法が、異なる特性に対する所望の制御を伴った多様で高品質な3Dポートレートを生成できることを示しています。
大規模言語モデル(LLMs)は最近、人間の意図を理解し、推論を行い、計画的な行動を設計する顕著な能力を示しています。複雑なタスクを達成するためにLLMsの力をさらに引き出すため、ChatGPTなどのLLMsにツール使用能力を備えさせ、大規模な外部APIと接続するエージェントフレームワークを構築する動きが高まっています。本論文では、オープンソースのLLMsをコントローラーとして使用する、実世界のアプリケーション向けの汎用的でカスタマイズ可能なエージェントフレームワークであるModelScope-Agentを紹介します。このフレームワークは、ユーザーフレンドリーなシステムライブラリを提供し、複数のオープンソースLLMsでのモデルトレーニングをサポートするカスタマイズ可能なエンジンデザインを備えています。また、モデルAPIと一般的なAPIを統一された方法でシームレスに統合することも可能です。LLMsにツール使用能力を備えさせるため、ツール使用データの収集、ツール検索、ツール登録、メモリ制御、カスタマイズされたモデルトレーニング、実世界のアプリケーション向けの評価にわたる包括的なフレームワークが提案されています。最後に、ModelScope-Agentフレームワークに基づくModelScopeコミュニティの実世界のインテリジェントアシスタントであるModelScopeGPTを紹介します。これは、オープンソースのLLMsをModelScope内の1000以上の公開AIモデルとローカルコミュニティの知識と接続することができます。ModelScope-Agentライブラリ(https://github.com/modelscope/modelscope-agent)とオンラインデモ(https://modelscope.cn/studios/damo/ModelScopeGPT/summary)は現在公開されています。
写真からの素材再構築は、3Dコンテンツ制作の民主化における重要な要素です。本研究では、この不良設定問題を制御された合成問題として定式化し、生成ディープネットワークの最近の進展を活用します。我々はControlMatを提案します。これは、制御されていない照明条件下の単一の写真を入力として与えられた場合、拡散モデルを条件付けして、妥当でタイル可能な高解像度の物理ベースデジタル素材を生成する手法です。我々は、マルチチャネル出力に対する拡散モデルの挙動を詳細に分析し、マルチスケール情報を融合するためにサンプリングプロセスを適応させ、タイル可能性と高解像度出力を可能にするためにロールド拡散とパッチド拡散を導入します。我々の生成アプローチはさらに、未知の照明条件を緩和し、入力画像に対応する多様な素材の探索を可能にします。我々は、このアプローチが最近の推論法や潜在空間最適化法を上回ることを示し、拡散プロセスの設計選択を慎重に検証します。補足資料と追加の詳細は以下で利用可能です: https://gvecchio.com/controlmat/
人間のフィードバックを用いた強化学習(RLHF)は、モデルを人間の好みに合わせることで言語モデリングに革命をもたらしました。しかし、強化学習の段階であるProximal Policy Optimization(PPO)は、教師ありファインチューニング(SFT)の3倍以上のメモリを必要とするため、多くの実践者にとって使用が困難です。この問題を解決するため、我々はPPOのメモリ使用量、性能、および訓練時間に関する包括的な分析を行い、メモリ節約技術を検証しました。我々は、まずSFTと報酬モデルを統合し、訓練中にLoRAを動的に「オフ」にするHydra-RLHFを提案します。実験結果は以下の通りです:1. PPO中にLoRAを使用することで、メモリ使用量をSFTよりも小さく抑えつつ、4つの公開ベンチマークで整合性を向上させることができ、2. Hydra-PPOは、LoRA-PPOのサンプルあたりの遅延を最大65%削減しつつ、その性能を維持します。これらの結果は、Hydra-PPOがRLHFのより広範な使用を可能にするシンプルで有望なソリューションであることを示しています。
音声はテキスト以上の情報を伝えることができます。なぜなら、同じ単語でも様々な声で発話することで多様な情報を伝えることができるからです。音声プロンプト(参照音声)に依存して声の多様性を実現する従来のテキスト音声合成(TTS)手法と比較して、テキストプロンプト(記述)を使用する方がユーザーフレンドリーです。なぜなら、音声プロンプトは見つけるのが難しい場合や、そもそも存在しない場合があるからです。テキストプロンプトに基づくTTSアプローチは、2つの課題に直面しています:1)一対多の問題、つまりテキストプロンプトに声の多様性に関するすべての詳細を記述することができないこと、2)テキストプロンプトデータセットの限られた可用性、つまりベンダーとデータラベリングの多大なコストが必要とされることです。本研究では、これらの課題を解決するためにPromptTTS 2を紹介します。PromptTTS 2は、テキストプロンプトで捕捉されない声の多様性情報を提供する変動ネットワークと、大規模言語モデル(LLM)を利用して高品質なテキストプロンプトを作成するプロンプト生成パイプラインを備えています。具体的には、変動ネットワークは、テキストプロンプト表現に基づいて、参照音声(声に関する完全な情報を含む)から抽出された表現を予測します。プロンプト生成パイプラインでは、音声理解モデルを使用して音声から声の属性(例:性別、速度)を認識し、認識結果に基づいて大規模言語モデルを使用してテキストプロンプトを作成します。大規模(44K時間)音声データセットでの実験により、PromptTTS 2は従来の研究と比較して、テキストプロンプトにより一貫した声を生成し、多様な声の多様性のサンプリングをサポートすることで、ユーザーに声生成のより多くの選択肢を提供することが示されました。さらに、プロンプト生成パイプラインは高品質なプロンプトを生成し、多大なラベリングコストを排除します。PromptTTS 2のデモページはオンラインで利用可能ですhttps://speechresearch.github.io/prompttts2。
ビデオアウトペインティングは、ビデオフレームの端にある欠落領域を適切に補完することを目的としています。画像アウトペインティングと比較して、モデルが補完領域の時間的一貫性を維持する必要があるため、追加の課題を提示します。本論文では、ビデオアウトペインティングのためのマスク付き3D拡散モデルを紹介します。3D拡散モデルを訓練するために、マスクモデリングの技術を使用します。これにより、複数のガイドフレームを使用して複数のビデオクリップ推論の結果を接続することができ、時間的一貫性を確保し、隣接フレーム間のジッターを低減します。同時に、ビデオのグローバルフレームをプロンプトとして抽出し、クロスアテンションを使用して現在のビデオクリップ以外の情報をモデルに提供します。また、アーティファクト蓄積問題を軽減するために、ハイブリッドな粗密推論パイプラインを導入します。既存の粗密パイプラインは埋め込み戦略のみを使用しており、スパースフレームの時間間隔が大きすぎるため劣化が生じます。私たちのパイプラインは、マスクモデリングの双方向学習の恩恵を受け、スパースフレームを生成する際に埋め込みと補間のハイブリッド戦略を採用できます。実験結果は、私たちの方法がビデオアウトペインティングタスクで最先端の結果を達成することを示しています。詳細な結果は、https://fanfanda.github.io/M3DDM/ で提供されています。
本論文では、テキストプロンプトとスタイル参照画像を入力として、単一パスで出力画像を生成するLoRA不要のスタイル化画像生成手法を提案する。既存手法が各スタイルごとに個別のLoRAを訓練する必要があるのに対し、本手法は統一モデルで様々なスタイルに適応可能である。しかし、これには2つの課題がある:1) プロンプトが生成内容に対する制御性を失うこと、2) 出力画像がスタイル参照画像の意味的・スタイル的特徴を継承し、内容の忠実性が損なわれることである。これらの課題を解決するため、我々はStyleAdapterを導入する。このモデルは、2パス交差注意モジュール(TPCA)と3つの分離戦略で構成されており、プロンプトとスタイル参照特徴を別々に処理し、スタイル参照における意味情報とスタイル情報の強い結合を低減する。StyleAdapterは、プロンプトの内容に一致し、参照画像のスタイルを採用した高品質な画像を(未見のスタイルに対しても)単一パスで生成可能であり、従来手法よりも柔軟かつ効率的である。実験を通じて、本手法が従来手法を上回る優位性を実証した。
視覚的な曖昧さ解消タスクとして、視覚的に類似した画像のペアが同じ3D表面を表しているか、異なる3D表面を表しているか(例えば、対称的な建物の同じ側か反対側か)を判定する問題を考察します。幻想的な画像マッチ、つまり2つの画像が異なるが視覚的に類似した3D表面を観察している場合、人間にとって区別が難しいだけでなく、3D再構成アルゴリズムが誤った結果を生み出す原因にもなり得ます。本論文では、視覚的曖昧さ解消を学習ベースのアプローチで解決し、画像ペアに対する二値分類タスクとして定式化します。そのために、この問題に対する新しいデータセット「Doppelgangers」を導入します。このデータセットには、類似した構造物の画像ペアとその正解ラベルが含まれています。また、局所的なキーポイントとマッチングの空間分布を入力として受け取り、局所的な手がかりとグローバルな手がかりの両方をより良く推論できるネットワークアーキテクチャを設計します。評価の結果、提案手法が困難なケースにおける幻想的なマッチを区別できること、そしてSfMパイプラインに統合して正しく曖昧さを解消した3D再構成を生成できることが示されました。コード、データセット、およびさらなる結果については、プロジェクトページをご覧ください: http://doppelgangers-3d.github.io/。
近年のアーキテクチャの進化により、リカレントニューラルネットワーク(RNN)は特定のシーケンスモデリングタスクにおいてTransformerの性能に追いつき、さらには凌駕するようになりました。これらの現代的なRNNは、線形リカレント層と乗算ゲートを備えたフィードフォワードパスが相互接続された設計パターンを特徴としています。本論文では、これら2つの設計要素を備えたRNNが、Transformerの主要な構成要素である(線形)セルフアテンションを正確に実装できることを示します。訓練されたRNNを逆解析することで、実際に勾配降下法が我々の構築方法を発見していることを明らかにします。特に、Transformerが優れているとされるシンプルなインコンテキスト学習タスクを解くように訓練されたRNNを調査し、勾配降下法がRNNにTransformerと同じアテンションベースのインコンテキスト学習アルゴリズムを組み込んでいることを発見しました。我々の研究結果は、ニューラルネットワークにおける乗算的相互作用の重要性を強調し、特定のRNNが予期せずアテンションを実装している可能性を示唆しています。
本論文では、Contrastive Feature Masking Vision Transformer (CFM-ViT)を提案する。これは、オープン語彙物体検出(OVD)における画像レベルおよび領域レベルの表現を同時に学習する画像-テキスト事前学習手法である。我々のアプローチは、マスクドオートエンコーダ(MAE)の目的関数を対照学習の目的関数に組み合わせることで、ローカライゼーションタスクのための表現を改善する。従来のMAE手法とは異なり、ピクセル空間ではなく、画像-テキストの埋め込み空間で再構成を行うことで、モデルが領域レベルのセマンティクスをより良く学習する。さらに、Positional Embedding Dropout (PED)を導入し、画像-テキスト事前学習と検出ファインチューニング間のスケール変動に対処する。PEDは、事前学習中に位置埋め込みをランダムにドロップアウトすることで、検出性能を向上させ、凍結されたViTバックボーンを領域分類器として使用可能にし、検出ファインチューニング中にオープン語彙知識が失われるのを防ぐ。LVISオープン語彙検出ベンチマークにおいて、CFM-ViTは33.9 APrという最先端の結果を達成し、従来の最良の手法を7.6ポイント上回り、ゼロショット検出転移においても優れた性能を示す。最後に、CFM-ViTは強力な画像レベルの表現を獲得し、ゼロショット画像-テキスト検索ベンチマークにおいて12の指標のうち8つで最先端の性能を上回る。
本論文では、ロボットの推論と計画における連続制約充足問題(CCSP)を解決するための学習アプローチを紹介する。従来の手法は、特定の制約タイプに対して手動で設計された生成器や学習された生成器に依存し、他の制約が違反された場合に値の割り当てを拒否するものが主流であった。これに対し、我々のモデルである構成拡散連続制約ソルバー(Diffusion-CCSP)は、CCSPを因子グラフとして表現し、個々の制約タイプに対してサンプリングを行うように訓練された拡散モデルのエネルギーを組み合わせることで、CCSPに対するグローバルな解を導出する。Diffusion-CCSPは、既知の制約の新たな組み合わせに対して強い汎化性能を示し、離散パラメータと連続パラメータの両方を含むアクションを組み込んだ長期的な計画を立案するタスク・モーションプランナーに統合することが可能である。プロジェクトサイト: https://diffusion-ccsp.github.io/
本論文は、動画の動きを保持しながら視覚的な外観を変更するという課題に取り組む。新たなフレームワーク「MagicProp」を提案し、動画編集プロセスを外観編集とモーション認識型外観伝播の2段階に分離する。第1段階では、MagicPropは入力動画から1フレームを選択し、画像編集技術を用いてフレームの内容やスタイルを変更する。これらの技術の柔軟性により、フレーム内の任意の領域を編集可能とする。第2段階では、MagicPropは編集済みフレームを外観リファレンスとして使用し、自己回帰的レンダリング手法を用いて残りのフレームを生成する。これを実現するため、PropDPMと呼ばれる拡散ベースの条件付き生成モデルを開発し、リファレンス外観、ターゲットモーション、および前フレームの外観を条件としてターゲットフレームを合成する。自己回帰的編集手法により、結果の動画における時間的一貫性が保証される。全体として、MagicPropは画像編集技術の柔軟性と自己回帰モデリングの優れた時間的一貫性を組み合わせ、入力動画の任意の領域におけるオブジェクトタイプや美的スタイルの柔軟な編集を可能にしつつ、フレーム間の良好な時間的一貫性を維持する。様々な動画編集シナリオにおける広範な実験により、MagicPropの有効性が実証されている。
Inverse design refers to the problem of optimizing the input of an objective function in order to enact a target outcome. For many real-world engineering problems, the objective function takes the form of a simulator that predicts how the system state will evolve over time, and the design challenge is to optimize the initial conditions that lead to a target outcome. Recent developments in learned simulation have shown that graph neural networks (GNNs) can be used for accurate, efficient, differentiable estimation of simulator dynamics, and support high-quality design optimization with gradient- or sampling-based optimization procedures. However, optimizing designs from scratch requires many expensive model queries, and these procedures exhibit basic failures on either non-convex or high-dimensional problems.In this work, we show how denoising diffusion models (DDMs) can be used to solve inverse design problems efficiently and propose a particle sampling algorithm for further improving their efficiency. We perform experiments on a number of fluid dynamics design challenges, and find that our approach substantially reduces the number of calls to the simulator compared to standard techniques.
現実世界の多くの操作タスクは、互いに大きく異なる一連のサブタスクで構成されています。このような長期的で複雑なタスクは、適応性と汎用性を備えた器用なハンドの可能性を浮き彫りにします。器用なハンドは、再把持や外部ツールを必要とせずに、異なる機能モード間をシームレスに移行することができます。しかし、器用なハンドの高次元アクション空間と長期的タスクの複雑な構成力学により、課題が生じます。本論文では、長期的タスク目標を達成するために複数の器用なポリシーを連鎖させる、強化学習(RL)に基づく汎用システム「Sequential Dexterity」を提案します。このシステムの中核となるのは、連鎖成功率を向上させるためにサブポリシーを段階的に微調整する遷移実現可能性関数であり、失敗からの回復や冗長な段階の回避のための自律的なポリシー切り替えも可能にします。シミュレーション内で少数のタスクオブジェクトのみで訓練されたにもかかわらず、本システムは新しい物体形状への一般化能力を示し、器用なハンドを備えた実世界のロボットへのゼロショット転移が可能です。詳細と動画結果はhttps://sequential-dexterity.github.ioでご覧いただけます。