翻訳付きの日次キュレーションされたAI研究論文
畳み込みニューラルネットワーク(CNN)とVision Transformers(ViT)は、視覚表現学習における最も人気のある基盤モデルとして位置づけられています。CNNは画像解像度に対して線形の計算量で優れたスケーラビリティを示す一方、ViTは二次的な計算量を伴うものの、モデルの適合能力においてCNNを凌駕しています。詳細に観察すると、ViTはグローバルな受容野と動的な重み付けを組み込むことで、優れた視覚モデリング性能を実現していることがわかります。この知見を踏まえ、我々はこれらの要素を継承しつつ計算効率を向上させる新たなアーキテクチャを提案します。そのために、最近導入された状態空間モデルに着想を得て、グローバルな受容野を維持しながら線形計算量を実現するVisual State Space Model(VMamba)を提案します。また、方向性に敏感な問題に対処するため、空間領域を横断し非因果的な視覚画像を順序付きパッチ列に変換するCross-Scan Module(CSM)を導入します。大規模な実験結果により、VMambaが様々な視覚知覚タスクにおいて有望な能力を示すだけでなく、画像解像度が増加するにつれて確立されたベンチマークに対してより顕著な優位性を示すことが実証されました。ソースコードはhttps://github.com/MzeroMiko/VMambaで公開されています。
拡散モデルは画像生成の分野に新たな可能性を開き、オープンソースプラットフォームで共有される高品質なモデルの普及をもたらしました。しかし、現在のテキストから画像への生成システムでは、多様な入力を扱えない、または単一のモデル結果に限定されるという大きな課題が残っています。現在の統一的な試みは、主に二つの直交する側面に分かれています:i) 入力段階で多様なプロンプトを解析する、ii) 専門家モデルを起動して出力する。これら両方の利点を組み合わせるため、私たちはDiffusionGPTを提案します。これは大規模言語モデル(LLM)を活用し、様々なタイプのプロンプトをシームレスに受け入れ、ドメイン専門家モデルを統合できる統一生成システムを提供します。DiffusionGPTは、事前知識に基づいて様々な生成モデルのためのドメイン固有のツリーを構築します。入力が与えられると、LLMはプロンプトを解析し、思考の木(Trees-of-Thought)を活用して適切なモデルを選択するため、入力制約を緩和し、多様なドメインで優れたパフォーマンスを保証します。さらに、私たちはアドバンテージデータベースを導入し、思考の木に人間のフィードバックを加えることで、モデル選択プロセスを人間の好みに合わせます。広範な実験と比較を通じて、DiffusionGPTの有効性を実証し、多様なドメインにおける画像合成の限界を押し広げる可能性を示します。
SPARse Fine-grained Contrastive Alignment (SPARC)を紹介する。これは、画像とテキストのペアからより細かい粒度のマルチモーダル表現を事前学習するためのシンプルな手法である。複数の画像パッチが単一の単語に対応することが多いことを踏まえ、キャプション内の各トークンに対して画像パッチのグループ化を学習することを提案する。これを実現するため、画像パッチと言語トークン間のスパースな類似度メトリックを使用し、各トークンに対して言語グループ化された視覚埋め込みをパッチの重み付き平均として計算する。その後、トークンと言語グループ化された視覚埋め込みを、個々のサンプルにのみ依存し、他のバッチサンプルをネガティブとして必要としない細かい粒度のシーケンス単位の損失関数を通じて対比させる。これにより、計算コストを抑えつつ、より詳細な情報を学習することが可能となる。SPARCは、この細かい粒度の損失関数と、グローバルな画像とテキストの埋め込み間の対比損失を組み合わせることで、グローバルとローカルの情報を同時にエンコードする表現を学習する。提案手法を徹底的に評価し、分類などの粗い粒度の情報に依存する画像レベルのタスクや、検索、物体検出、セグメンテーションなどの細かい粒度の情報に依存する領域レベルのタスクにおいて、競合する手法を上回る性能を示す。さらに、SPARCは基礎的な視覚言語モデルにおけるモデルの忠実性とキャプション生成を改善する。
多くの機械学習問題と同様に、画像生成手法の進展は優れた評価指標にかかっている。最も広く使われている指標の一つが、Frechet Inception Distance(FID)である。FIDは、実画像のInception-v3特徴量の分布と、アルゴリズムによって生成された画像のそれとの間の距離を推定する。我々はFIDの重要な欠点を指摘する:現代のテキストから画像へのモデルが生成する豊かで多様な内容をInceptionが十分に表現できないこと、誤った正規性の仮定、そしてサンプル複雑性の低さである。我々は、生成画像の主要な品質指標としてFIDを使用することの再評価を求める。我々は、FIDが人間の評価者と矛盾すること、反復的なテキストから画像へのモデルの漸進的な改善を反映しないこと、歪みレベルを捉えないこと、そしてサンプルサイズを変えると一貫しない結果を生み出すことを実証的に示す。また、我々は、より豊富なCLIP埋め込みとガウシアンRBFカーネルを用いた最大平均不一致距離に基づく新しい代替指標、CMMDを提案する。これは、埋め込みの確率分布について何の仮定もせず、サンプル効率の良い不偏推定量である。広範な実験と分析を通じて、テキストから画像へのモデルのFIDベースの評価が信頼できない可能性があること、そしてCMMDが画像品質のより堅牢で信頼性の高い評価を提供することを示す。
本論文では、SHINOBIを紹介します。これは、照明、ポーズ、背景が変化する条件下で撮影された物体画像から、形状、材質、照明を再構築するためのエンドツーエンドフレームワークです。制約のない画像コレクションに基づく物体の逆レンダリングは、コンピュータビジョンとグラフィックスにおける長年の課題であり、形状、放射輝度、ポーズの共同最適化を必要とします。我々は、マルチレゾリューションハッシュエンコーディングに基づく暗黙的な形状表現が、従来の研究を上回る高速かつロバストな形状再構築とカメラアライメント最適化を可能にすることを示します。さらに、照明と物体の反射特性(すなわち材質)の編集を可能にするため、BRDFと照明を物体の形状と共に共同最適化します。本手法はクラスに依存せず、AR/VR、映画、ゲームなど、いくつかのユースケース向けのリライタブルな3Dアセットを生成するために、実世界の物体画像コレクション上で動作します。プロジェクトページ: https://shinobi.aengelhardt.com ビデオ: https://www.youtube.com/watch?v=iFENQ6AcYd8&feature=youtu.be
本論文の目的は、軽量かつ高速な拡散ベースのボコーダ「FreGrad」を用いてリアルな音声を生成することである。我々のフレームワークは以下の3つの主要なコンポーネントで構成されている:(1) 複雑な波形をサブバンドのウェーブレットに分解する離散ウェーブレット変換を採用し、FreGradがシンプルで簡潔な特徴空間で動作することを可能にする、(2) 周波数認識を高める周波数認識型拡張畳み込みを設計し、正確な周波数情報を持つ音声の生成を実現する、(3) 提案モデルの生成品質を向上させるための様々な工夫を導入する。実験では、FreGradはベースラインと比較して3.7倍の高速な学習時間と2.2倍の高速な推論速度を達成し、モデルサイズを0.6倍(わずか1.78Mパラメータ)に削減しながらも出力品質を犠牲にしなかった。音声サンプルは以下で公開されている: https://mm.kaist.ac.kr/projects/FreGrad。
カスタマイズされたテキストからビデオ生成は、テキストプロンプトと被写体参照に基づいて高品質なビデオを生成することを目指しています。単一の被写体を対象とした現在のアプローチでは、複数の被写体を扱うことが難しく、より挑戦的で実用的なシナリオとなっています。本研究では、複数の被写体をガイドとしたテキストからビデオのカスタマイズを推進することを目指します。我々は、複数の被写体をガイドとしてアイデンティティを保持したビデオを生成できる新しいフレームワークであるCustomVideoを提案します。具体的には、まず、複数の被写体を単一の画像に構成することで、それらの共起を促進します。さらに、基本的なテキストからビデオへの拡散モデルに基づいて、異なる被写体を拡散モデルの潜在空間で分離するためのシンプルかつ効果的なアテンション制御戦略を設計します。また、モデルが特定のオブジェクト領域に集中できるように、参照画像からオブジェクトをセグメント化し、対応するオブジェクトマスクをアテンション学習に提供します。さらに、69の個別の被写体と57の意味のあるペアを含む、複数の被写体を対象としたテキストからビデオ生成のデータセットを包括的なベンチマークとして収集しました。質的、量的、およびユーザー調査の結果は、従来の最先端のアプローチと比較して、我々の手法の優位性を示しています。