翻訳付きの日次キュレーションされたAI研究論文
ウェブスケールの画像-テキストペアを用いてテキストから画像を生成するモデルを訓練することで、幅広い視覚的概念をテキストから生成することが可能になります。しかし、これらの事前学習済みモデルは、高度に美的な画像を生成する際に課題に直面することがしばしばあります。これにより、事前学習後の美的アライメントの必要性が生じます。本論文では、事前学習済みモデルを効果的に誘導し、視覚的概念の一般性を維持しながら、高度に視覚的に魅力的な画像のみを生成するための品質チューニングを提案します。私たちの重要な洞察は、驚くほど小規模だが極めて視覚的に魅力的な画像セットを用いた教師ありファインチューニングが、生成品質を大幅に向上させることができるという点です。私たちは、11億の画像-テキストペアで潜在拡散モデルを事前学習し、わずか数千の厳選された高品質画像でファインチューニングを行いました。その結果得られたモデル、Emuは、事前学習のみのモデルと比較して82.9%の勝率を達成しました。また、最先端のSDXLv1.0と比較して、Emuは標準的なPartiPromptsおよびテキストから画像を生成するモデルの実世界の使用に基づく私たちのOpen User Inputベンチマークにおいて、視覚的魅力において68.4%および71.3%の好まれ率を示しました。さらに、品質チューニングが、ピクセル拡散モデルやマスク生成トランスフォーマーモデルを含む他のアーキテクチャに対しても有効な汎用的なアプローチであることを示します。
VQ-VAEの潜在表現におけるベクトル量子化(VQ)を、有限スカラー量子化(FSQ)と呼ばれるシンプルな手法に置き換えることを提案します。FSQでは、VAEの表現を少数の次元(通常10未満)に投影し、各次元を小さな固定値のセットに量子化します。これにより、これらのセットの直積によって与えられる(暗黙的な)コードブックが生成されます。次元数と各次元が取り得る値の数を適切に選択することで、VQと同じサイズのコードブックを得ることができます。このような離散表現の上で、VQ-VAE表現で訓練されてきたのと同じモデルを訓練することが可能です。例えば、画像生成のための自己回帰モデルやマスク付きトランスフォーマーモデル、マルチモーダル生成、そして密な予測を伴うコンピュータビジョンタスクなどです。具体的には、画像生成にはMaskGITと、深度推定、カラー化、パノプティックセグメンテーションにはUViMとFSQを組み合わせて使用します。FSQの設計は非常にシンプルであるにもかかわらず、これら全てのタスクで競争力のある性能を達成しています。FSQはコードブックの崩壊に悩まされることがなく、表現力のある離散表現を学習するためにVQで必要とされる複雑な機構(コミットメント損失、コードブックの再シード、コード分割、エントロピーペナルティなど)を必要としないことを強調します。
我々は、低ランク適応(LoRA)に基づくニューラル言語モデリングシステムを音声認識出力のリスコアリングに提案する。BERTのような事前学習済み言語モデル(LM)は第二パスのリスコアリングで優れた性能を示すが、事前学習段階のスケールアップや特定ドメインへの適応に伴う高い計算コストが、リスコアリングにおける実用的な使用を制限している。本稿では、低ランク分解に基づく手法を提示し、事前学習済みパラメータの僅か0.08%を使用してリスコアリング用BERTモデルを訓練し、新たなドメインに適応させる。これらの挿入行列は、識別訓練目的関数と相関ベースの正則化損失を用いて最適化される。提案する低ランク適応Rescore-BERT(LoRB)アーキテクチャは、LibriSpeechおよび内部データセットで評価され、訓練時間を5.4倍から3.6倍に短縮した。
大規模な事前学習済みテキスト-to-ビデオ拡散モデル(VDMs)の分野において、重要な進展が達成されてきました。しかし、従来の手法は、計算コストが高いピクセルベースのVDMsに依存するか、あるいはテキストとビデオの正確なアラインメントに苦戦する潜在ベースのVDMsに依存していました。本論文では、初めてピクセルベースと潜在ベースのVDMsを融合させたハイブリッドモデル「Show-1」を提案します。本モデルは、まずピクセルベースのVDMsを使用して、強力なテキスト-ビデオ相関を持つ低解像度のビデオを生成します。その後、潜在ベースのVDMsを用いた新しいエキスパート翻訳手法を提案し、低解像度のビデオを高解像度にアップサンプリングします。潜在VDMsと比較して、Show-1はテキストとビデオの正確なアラインメントを実現した高品質なビデオを生成できます。また、ピクセルVDMsと比較して、Show-1ははるかに効率的です(推論時のGPUメモリ使用量は15G対72G)。さらに、標準的なビデオ生成ベンチマークで本モデルを検証しました。本モデルのコードと重みは、https://github.com/showlab/Show-1 で公開されています。
本論文では、信号表現に一般的な放射基底を用いた新たなタイプのニューラルフィールドを提案する。最先端のニューラルフィールドは通常、局所的なニューラル特徴を格納するためにグリッドベースの表現と、連続的なクエリポイントでの特徴補間にN次元線形カーネルを利用している。これらのニューラル特徴の空間的位置はグリッドノード上に固定されており、ターゲット信号に適応することが難しい。我々の手法では、カーネルの位置と形状が柔軟な一般的な放射基底を基盤としており、より高い空間適応性を持ち、ターゲット信号により密接にフィットすることができる。放射基底関数のチャネルごとの容量をさらに向上させるため、多周波数の正弦波関数と組み合わせることを提案する。この技術により、追加のパラメータを必要とせずに、異なる周波数帯域の複数のフーリエ放射基底に拡張され、詳細な表現が容易になる。さらに、適応的な放射基底とグリッドベースのものを組み合わせることで、我々のハイブリッド手法は適応性と補間の滑らかさの両方を継承する。異なるタイプの信号に放射基底が効果的に適応するよう、重み付けスキームを慎重に設計した。2D画像と3D符号付き距離場の表現に関する実験により、我々の手法が従来技術よりも高い精度とコンパクトさを実現することを示した。ニューラルラジアンスフィールドの再構築に適用した場合、我々の手法は小さなモデルサイズと同等のトレーニング速度で、最先端のレンダリング品質を達成した。
近年、大規模な言語モデルとテキストから画像へのモデルの事前学習の進展により、機械学習の分野は革命を遂げてきました。しかし、これら二つのモダリティを統合し、シームレスなマルチモーダル出力を生成できる単一の堅牢なモデルを構築することは、依然として重要な課題です。このギャップを埋めるため、我々はJoint Autoregressive Mixture (JAM)フレームワークを提案します。これは、既存のテキスト生成モデルと画像生成モデルを体系的に融合するモジュール型アプローチです。さらに、混合モーダル生成タスクに特化した、データ効率の良い指示チューニング戦略を導入しました。最終的な指示チューニング済みモデルは、高品質なマルチモーダル出力の生成において他を圧倒する性能を示し、この目的のために明示的に設計された初のモデルとして位置づけられます。
人間が物理的な接触をどのように用いて世界と相互作用するかを理解することは、人間中心の人工知能を実現するための鍵です。3D接触を推論することは、現実的で物理的に妥当な人間と物体の相互作用をモデル化するために重要ですが、既存の手法は2Dに焦点を当てるか、表面ではなく関節を考慮するか、粗い3D身体領域を使用するか、あるいは実世界の画像に一般化できません。これに対して、私たちは任意の画像における全身表面と物体との密な3D接触を推論することに焦点を当てています。これを実現するために、まず、複雑な人間と物体および人間とシーンの接触を含むRGB画像と、密な頂点レベルの接触アノテーションをペアにした新しいデータセットDAMONを収集します。次に、SMPL身体上の頂点レベル接触を推定するために、身体部位駆動とシーンコンテキスト駆動の両方の注意を使用する新しい3D接触検出器DECOを訓練します。DECOは、人間の観察者が接触を認識する際に、接触する身体部位、シーン物体への近接性、および周囲のシーンコンテキストを推論するという洞察に基づいています。私たちは、DAMONだけでなくRICHおよびBEHAVEデータセットにおいても検出器の広範な評価を行います。すべてのベンチマークにおいて、既存のSOTA手法を大幅に上回る結果を示します。また、DECOが自然画像における多様で挑戦的な実世界の人間の相互作用にうまく一般化することを定性的に示します。コード、データ、およびモデルはhttps://deco.is.tue.mpg.deで利用可能です。
最近、大規模言語モデル(LLM)に新たな認知能力が出現していると主張する研究が増えています。しかし、その多くは逸話に依存し、訓練データセットの汚染を見落としていたり、複数のタスク、対照条件、複数の反復、統計的ロバストネステストを含む体系的な評価を欠いています。本論文では、2つの主要な貢献を行います。第一に、CogEvalという、認知科学にインスパイアされたプロトコルを提案します。これは、大規模言語モデルの認知能力を体系的に評価するためのもので、様々な能力の評価に適用可能です。第二に、ここではCogEvalに従って、8つのLLM(OpenAI GPT-4、GPT-3.5-turbo-175B、davinci-003-175B、Google Bard、Cohere-xlarge-52.4B、Anthropic Claude-1-52B、LLaMA-13B、Alpaca-7B)における認知地図と計画能力を体系的に評価します。タスクプロンプトは人間の実験に基づいており、計画評価のための確立された構成妥当性を提供し、かつLLMの訓練データセットには含まれていないものです。その結果、LLMは構造が単純な計画タスクでは一見有能に見えるものの、体系的な評価を行うと、無効な軌道を幻覚する、ループに陥るといった顕著な失敗モードが明らかになりました。これらの知見は、LLMに即座に利用可能な計画能力が出現しているという考えを支持するものではありません。これは、LLMが計画問題の基盤となる潜在的な関係構造、すなわち認知地図を理解しておらず、その基盤構造に基づいて目標指向の軌道を展開することに失敗しているためと考えられます。応用と今後の方向性についても議論します。
テキストプロンプトチューニングは、手動で設計されたプロンプトを学習可能なパラメータとして扱うことで、自然言語処理モデルを様々な下流タスクに適応させる際に大幅な性能向上を示してきました。テキストプロンプトの成功に触発され、いくつかの研究では視覚プロンプトチューニングの有効性が調査されています。本研究では、テストタイム適応を用いて視覚プロンプトを一般化する初めてのフレームワークであるVisual Prompt Adaptation (VPA)を提案します。VPAは少数の学習可能なトークンを導入し、ソースドメイン情報を必要とせずに完全なテストタイムかつストレージ効率の高い適応を可能にします。私たちはVPAの設計を、単一画像、バッチ画像、および疑似ラベル適応を含む多様な適応設定で検証しました。VPAを、分布外(OOD)一般化、破損ロバスト性、およびドメイン適応を含む複数のタスクで評価しました。実験結果は、VPAが様々なモデルにわたってOOD一般化を3.3%向上させ、従来のテストタイムアプローチを凌駕することを明らかにしています。さらに、VPAは強力なベースラインと比較して破損ロバスト性を6.5%向上させることを示しました。最後に、VPAがドメイン適応性能を相対的に5.2%向上させることも実証しました。私たちのVPAは、視覚言語モデルのゼロショット認識のロバスト性を向上させる際にも顕著な効果を示しています。