翻訳付きの日次キュレーションされたAI研究論文
本論文では、生成事前分布とモデルスケーリングの力を活用した画期的な画像復元手法であるSUPIR(Scaling-UP Image Restoration)を紹介します。マルチモーダル技術と高度な生成事前分布を活用することで、SUPIRは知的で現実的な画像復元において大きな進歩を遂げています。SUPIRの中核となるモデルスケーリングは、その能力を劇的に向上させ、画像復元における新たな可能性を示しています。モデルトレーニングのために、2000万枚の高解像度・高品質な画像からなるデータセットを収集し、それぞれに記述的なテキストアノテーションを付与しました。SUPIRは、テキストプロンプトに基づいて画像を復元する能力を提供し、その応用範囲と可能性を広げています。さらに、知覚品質をさらに向上させるために、ネガティブ品質プロンプトを導入しました。また、生成ベースの復元で遭遇する忠実度の問題を抑制するために、復元ガイド付きサンプリング手法を開発しました。実験結果は、SUPIRの卓越した復元効果と、テキストプロンプトを通じて復元を操作する新たな能力を実証しています。
トークンフリーの言語モデルは、生のバイト列から直接学習し、サブワードトークン化のバイアスを除去します。しかし、バイト列で動作することは、大幅に長いシーケンスをもたらし、標準的な自己回帰型Transformerはそのような設定ではスケーリングが不十分です。私たちは、Mamba状態空間モデルのトークンフリー適応版であるMambaByteを実験し、バイトシーケンスで自己回帰的に学習させました。実験結果は、MambaByteが他のバイトレベルモデルと比較して計算効率が高いことを示しています。また、MambaByteは最先端のサブワードTransformerと競合し、それを上回ることもわかりました。さらに、長さに対する線形スケーリングのおかげで、MambaByteはTransformerと比較して高速な推論を実現します。私たちの研究結果は、MambaByteがトークンフリーの言語モデリングを可能にするための有効性を確立しています。
過去1年間において、マルチモーダル大規模言語モデル(MM-LLMs)は大幅な進化を遂げ、既存のLLMを低コストな学習戦略によってマルチモーダル入出力に対応するように拡張してきました。その結果得られたモデルは、LLMが本来持つ推論能力や意思決定能力を維持しつつ、多様なマルチモーダルタスクを実現する力を備えています。本論文では、MM-LLMsのさらなる研究を促進することを目的とした包括的なサーベイを提供します。具体的には、まずモデルアーキテクチャと学習パイプラインの一般的な設計手法を概説します。続いて、それぞれ独自の設計手法を持つ26の既存MM-LLMsを簡潔に紹介します。さらに、主要なベンチマークにおけるMM-LLMsの性能をレビューし、MM-LLMsの能力を高めるための重要な学習手法をまとめます。最後に、MM-LLMsの有望な研究方向を探るとともに、この分野の最新動向をリアルタイムで追跡するウェブサイトを維持しています。本サーベイがMM-LLMs領域の継続的な進展に寄与することを期待しています。
大規模言語モデル(LLM)の進化は、現実世界における自律アプリケーションの開発を特徴とする新たな時代を切り開き、高度なウェブベースエージェントの創出におけるイノベーションを推進しています。既存のウェブエージェントは通常、単一の入力モダリティしか扱わず、簡略化されたウェブシミュレーターや静的なウェブスナップショットでのみ評価されるため、現実世界のシナリオでの適用性が大幅に制限されています。このギャップを埋めるため、我々はWebVoyagerを紹介します。これは、現実世界のウェブサイトと対話することでユーザーの指示をエンドツーエンドで完了できる革新的な大規模マルチモーダルモデル(LMM)を搭載したウェブエージェントです。さらに、オープンエンドのウェブエージェントタスクの自動評価における課題に対処するため、GPT-4Vの強力なマルチモーダル理解能力を活用した新しい評価プロトコルを提案します。我々は、15の広く使用されているウェブサイトから現実世界のタスクを収集し、エージェントを評価するための新しいベンチマークを作成しました。WebVoyagerは55.7%のタスク成功率を達成し、GPT-4(All Tools)およびWebVoyager(テキストのみ)のセットアップを大幅に上回る性能を示し、実用面での卓越した能力を強調しています。また、提案した自動評価は人間の判断と85.3%の一致率を達成し、現実世界の設定におけるウェブエージェントのさらなる発展の道を切り開いています。
最近のテキストから画像を生成するモデルは、入力プロンプトに忠実に従った画像を生成するという驚くべき成功を収めています。しかし、望ましい概念を言葉で説明する必要があるため、生成される概念の外観に対する制御は限られています。本研究では、この欠点を解決するために、既存のテキストから画像を生成する拡散モデルにパーソナライゼーション機能を追加するアプローチを提案します。我々は、ユーザーがオブジェクトの参照画像を提供することで、生成画像内の概念の外観をガイドできる新しいアーキテクチャ(BootPIG)を提案します。 提案するBootPIGアーキテクチャは、事前学習済みのテキストから画像を生成する拡散モデルに最小限の変更を加え、別のUNetモデルを利用して生成を望ましい外観に向けて誘導します。我々は、事前学習済みのテキストから画像を生成するモデル、LLMチャットエージェント、および画像セグメンテーションモデルから生成されたデータを使用して、BootPIGアーキテクチャにパーソナライゼーション機能をブートストラップするトレーニング手順を導入します。数日間の事前学習を必要とする既存の方法とは対照的に、BootPIGアーキテクチャは約1時間でトレーニングできます。DreamBoothデータセットでの実験により、BootPIGが既存のゼロショット手法を上回り、テスト時のファインチューニングアプローチと同等であることが示されています。ユーザー調査を通じて、BootPIGの生成が参照オブジェクトの外観への忠実性を維持し、テキストプロンプトとの整合性を保つ点で既存の方法よりも好まれることを検証しました。
大規模言語モデルは自然言語処理の最先端を進化させてきた。しかし、その設計が英語や限られた言語に偏っているため、低リソース言語における有効性には大きな隔たりが生じている。この隔たりを埋めるため、我々は534言語を広範にカバーする新たな大規模言語モデルMaLA-500を提案する。MaLA-500の学習には、LLaMA 2を基盤とした語彙拡張とGlot500-cを用いた継続事前学習を採用した。SIB-200での実験結果から、MaLA-500はインコンテキスト学習において最先端の性能を達成することが示された。MaLA-500はhttps://huggingface.co/MaLA-LMで公開されている。
大規模言語モデルの事前学習は、非常にリソース集約的であり、しばしば非効率的で、訓練テキストシーケンスに含まれる情報を十分に活用できていないことが知られています。本論文では、SpacTorという新しい訓練手順を提案します。これは、(1) スパン破損(SC)とトークン置換検出(RTD)を組み合わせたハイブリッド目的関数、および (2) 最初のtau回のイテレーションでハイブリッド目的関数を最適化し、その後標準的なSC損失に移行する2段階のカリキュラムから構成されます。私たちは、ハイブリッド目的関数の有効性が2段階の事前学習スケジュールと密接に関連していることを実証し、その理由について詳細な分析を提供します。エンコーダ-デコーダアーキテクチャ(T5)を用いたさまざまなNLPタスクでの実験において、SpacTor-T5は、標準的なSC事前学習と同等の下流性能を達成しつつ、事前学習イテレーションを50%削減し、総FLOPsを40%削減することが可能でした。あるいは、同じ計算予算を与えた場合、SpacTorは下流ベンチマーク性能を大幅に向上させることがわかりました。
近年、テキストから3Dを生成するアプローチは、テキスト記述を用いた高精細な3Dコンテンツ生成を実現してきた。しかし、生成されるオブジェクトは確率的であり、細かな制御が欠けている。スケッチは、そのような細かな制御を導入するための簡便な方法を提供する。それにもかかわらず、スケッチの抽象性と曖昧さのため、これらのスケッチから柔軟な制御を実現することは困難である。本論文では、3D生成にスケッチ制御を追加するためのマルチビュースケッチ誘導型テキストから3D生成フレームワーク(Sketch2NeRFと称する)を提案する。具体的には、我々の手法は、事前学習済みの2D拡散モデル(例えば、Stable DiffusionやControlNet)を活用して、ニューラルラジアンスフィールド(NeRF)で表現される3Dシーンの最適化を監督する。NeRFを効果的に最適化するために、新たな同期生成と再構成手法を提案する。実験では、提案手法を評価するために2種類のマルチビュースケッチデータセットを収集した。我々の手法が、テキストプロンプトに忠実でありながら、細かなスケッチ制御を伴った3D整合性のあるコンテンツを合成できることを実証する。広範な結果は、我々の手法がスケッチの類似性とテキストの整合性の点で最先端の性能を達成することを示している。
既存のテキストから画像を生成する拡散モデルは、主にテキストプロンプトから画像を生成します。しかし、テキスト記述の本質的な簡潔さは、特定のエンティティやシーンなどの複雑な詳細を忠実に合成する際に課題を生じさせます。本論文では、テキストと視覚的入力を交互に組み合わせたマルチモーダルプロンプトを操作し、テキスト駆動とサブジェクト駆動の両方の画像生成を統一的に実現するシンプルなマルチモーダル条件付き拡散フレームワークであるUNIMO-Gを提案します。UNIMO-Gは、マルチモーダルプロンプトをエンコードするためのマルチモーダル大規模言語モデル(MLLM)と、エンコードされたマルチモーダル入力に基づいて画像を生成する条件付きノイズ除去拡散ネットワークの2つのコアコンポーネントで構成されています。本フレームワークを効果的に訓練するために、2段階の訓練戦略を採用しています。まず、大規模なテキスト-画像ペアで事前訓練を行い、条件付き画像生成能力を開発し、その後、マルチモーダルプロンプトを用いた指示チューニングを行い、統一的画像生成能力を達成します。言語グラウンディングと画像セグメンテーションを含む、よく設計されたデータ処理パイプラインを使用して、マルチモーダルプロンプトを構築します。UNIMO-Gは、テキストから画像を生成するタスクとゼロショットサブジェクト駆動合成の両方で優れた性能を発揮し、複数の画像エンティティを含む複雑なマルチモーダルプロンプトから高忠実度の画像を生成する際に特に効果的です。
近年のAIの進歩により、テキストと画像コンテンツを統合的に推論する複雑なタスク(例:公共の場での地図ナビゲーション)を処理可能な大規模マルチモーダルモデル(LMM)が開発されています。本論文では、LMMの文脈を考慮したテキスト豊富な視覚的推論能力を評価するために設計された新しいベンチマーク「ConTextual」を紹介します。ConTextualは、時間の読み取り、ナビゲーション、ショッピングなど多様な実世界のシナリオを重視し、テキストと視覚要素の相互作用に対する深い理解を求めます。我々の調査結果によると、最高性能のLMMであるGPT-4V(ision)と人間の能力との間には30.8%の大きな性能差があり、文脈を考慮したテキスト豊富な視覚的推論において改善の余地が大きいことが示されました。特に、GPT-4Vはミームや引用の解釈といった抽象的なカテゴリーでは優れているものの、全体的な性能は人間に及ばないことが明らかになりました。人間による評価に加えて、GPT-4を用いた自動評価指標も採用し、同様の性能差の傾向を確認しました。さらに、多様な視覚的文脈にわたる詳細な評価と質的分析を行い、今後のLMM設計の進展に向けた堅牢なフレームワークを提供します。 https://con-textual.github.io/
大規模なテキストから画像を生成するモデルは目覚ましい進歩を遂げ、多様な高品質な画像を合成する能力を示してきました。しかし、これらのモデルを芸術的な画像編集に適応させるには、2つの重要な課題があります。まず、ユーザーは入力画像の視覚的要素を細部まで詳細に記述するテキストプロンプトを作成するのに苦労します。次に、一般的なモデルは特定の領域を変更する際に、全体の芸術的スタイルをしばしば損ない、一貫性のある美学的に統一された作品を達成することを困難にします。これらの課題を克服するため、我々は拡散モデルに基づく革新的な統一フレームワークCreativeSynthを構築しました。このモデルは、芸術的画像生成の分野でマルチモーダル入力を調整し、マルチタスクを実行する能力を備えています。カスタマイズされたアテンションメカニズムとマルチモーダル特徴を統合することで、CreativeSynthは反転とリアルタイムスタイル転送を通じて現実世界の意味内容を芸術の領域に取り込むことを可能にします。これにより、元のモデルパラメータの整合性を維持しながら、画像のスタイルと内容を精密に操作することができます。厳密な定性的および定量的評価により、CreativeSynthが芸術的画像の忠実度を向上させ、その内在する美学的本質を保持する点で優れていることが示されています。生成モデルと芸術的洗練の間のギャップを埋めることで、CreativeSynthはカスタムデジタルパレットとなります。