翻訳付きの日次キュレーションされたAI研究論文
大規模マルチモーダルモデル(LMMs)、特にGPT-4V(ision)とGeminiの最近の進展により、マルチモーダルモデルの能力は、画像キャプション生成や視覚的質問応答といった従来のタスクを超えて急速に拡大しています。本研究では、GPT-4VのようなLMMsを、自然言語の指示に従って任意のウェブサイト上でタスクを完了する汎用ウェブエージェントとしての可能性を探ります。私たちは、LMMsの力を活用してウェブ上の視覚的理解と行動を統合した汎用ウェブエージェント「SEEACT」を提案します。これを最近のMIND2WEBベンチマークで評価します。キャッシュされたウェブサイトでの標準的なオフライン評価に加えて、ライブウェブサイト上でウェブエージェントを実行できるツールを開発し、新しいオンライン評価設定を可能にします。GPT-4Vはウェブエージェントとして大きな可能性を示しており、そのテキストベースの計画を手動でウェブサイト上のアクションに基づかせた場合、ライブウェブサイト上で50%のタスクを成功裏に完了できます。これは、GPT-4のようなテキストのみのLLMや、ウェブエージェント向けに特別にファインチューニングされた小規模モデル(FLAN-T5やBLIP-2)を大幅に上回ります。しかし、基盤付け(grounding)は依然として主要な課題です。既存のLMM基盤付け戦略(例:set-of-markプロンプティング)はウェブエージェントには効果的ではなく、本論文で開発した最良の基盤付け戦略はHTMLテキストと視覚情報の両方を活用します。それでも、オラクル基盤付けとの間には依然として大きなギャップがあり、さらなる改善の余地が十分に残されています。
既存のビデオ拡散モデル(VDM)の多くは、単なるテキスト条件に限定されています。そのため、生成されるビデオの視覚的な外観や幾何学的構造に対する制御が不十分であることが一般的です。本研究では、画像とテキストのマルチモーダル入力を同時に条件とする新しいビデオ生成モデル「Moonshot」を提案します。このモデルは、ビデオ特徴を表現するための従来の時空間層と、外観条件付けのために画像とテキスト入力を処理する分離型クロスアテンション層で構成される「マルチモーダルビデオブロック(MVB)」と呼ばれるコアモジュールを基盤としています。さらに、モデルアーキテクチャを慎重に設計し、事前学習済みの画像ControlNetモジュールを幾何学的視覚条件として統合できるようにしました。これにより、従来の方法とは異なり、追加の学習オーバーヘッドを必要としません。実験結果から、多様なマルチモーダル条件付けメカニズムを備えたMoonshotは、既存のモデルと比較して視覚品質と時間的一貫性において大幅な改善を示しています。さらに、このモデルは、パーソナライズされたビデオ生成、画像アニメーション、ビデオ編集など、さまざまな生成アプリケーションに容易に転用できるため、制御可能なビデオ生成の基本アーキテクチャとしての可能性を秘めています。モデルはhttps://github.com/salesforce/LAVISで公開されます。
本論文では、境界(輪郭、角、接合部を含む)を明示的にモデル化する微分可能なモデルを提案する。このモデルでは、「境界注意」と呼ばれる新しいメカニズムを採用している。我々のモデルは、境界信号が非常に微弱であるか、ノイズに埋もれている場合でも、正確な結果を提供することを示す。従来の微弱な境界を検出する古典的手法と比較して、本モデルは微分可能であること、大規模な画像にスケーラブルであること、画像の各部分において適切な幾何学的詳細レベルに自動的に適応できることといった利点を有する。また、エンドツーエンド学習による境界検出のための従来の深層学習手法と比較して、サブピクセル精度を提供すること、ノイズに対してより頑健であること、任意の画像をその本来の解像度とアスペクト比で処理できることといった利点を有する。
高品質な3Dヒューマンアバターを生成するための拡張生成スキームであるEn3Dを提案します。従来の研究では、希少な3Dデータセットや視点が偏った限定的な2Dコレクション、不正確な姿勢事前分布に依存していましたが、我々のアプローチでは、既存の3Dや2Dアセットに依存せずに、視覚的にリアルで幾何学的に正確かつ内容的に多様な3Dヒューマンを生成できるゼロショット3D生成スキームの開発を目指しています。この課題に対処するため、合成2Dデータから拡張された3D生成モデルを学習するために、正確な物理モデリングを実装した入念に設計されたワークフローを導入します。推論時には、リアルな外観と粗い3D形状のギャップを埋めるために最適化モジュールを統合します。具体的には、En3Dは3つのモジュールで構成されています:合成されたバランスの取れた多様で構造化された人間画像から、汎用的な3Dヒューマンをリアルな外観で正確にモデル化する3Dジェネレータ、複雑な人体解剖学を考慮したマルチビューノーマル制約を使用して形状品質を向上させるジオメトリスカルプター、セマンティックUV分割と微分可能ラスタライザを活用して忠実度と編集性を備えた明示的なテクスチャマップを分離するテクスチャリングモジュールです。実験結果は、我々のアプローチが画像品質、幾何学的精度、および内容の多様性の点で従来の研究を大幅に上回ることを示しています。また、生成されたアバターのアニメーションや編集への適用性、およびコンテンツスタイルの自由な適応に対するアプローチのスケーラビリティも実証しています。
文字列間の関係をモデル化することを学ぶことが、大規模言語モデル(LLM)に視覚世界について何を教えるのか?本研究では、LLMが複雑さを増す様々な視覚概念を生成および認識する能力を体系的に評価し、テキストモデルを用いて予備的な視覚表現学習システムを訓練する方法を実証する。言語モデルはピクセルとしての視覚情報を入力または出力する能力を持たないため、本研究ではコードを使用して画像を表現する。LLMが生成した画像は自然画像のようには見えないが、画像生成の結果と、モデルがこれらの生成画像を修正する能力は、文字列の正確なモデル化が言語モデルに視覚世界の多くの側面を教えることができることを示している。さらに、テキストモデルで生成された画像を利用した自己教師あり視覚表現学習の実験は、LLMのみを使用して自然画像の意味的評価を行うことができる視覚モデルを訓練する可能性を強調している。
命令チューニングされた大規模言語モデル(LLM)が世界的に普及するにつれ、複数言語での指示に従う能力がますます重要になっています。有望なアプローチの一つは、ある言語でファインチューニングを行うことで、他の言語でも特定の機能を獲得する「言語間転移」です。本研究では、多言語LLMの命令チューニングにおける多言語性が、言語間での指示追従にどのような影響を与えるかを調査します。まず、単一言語でのチューニングであっても、多くの言語が他の言語に指示追従能力を転移させることができることを示します。さらに、英語のチューニングセットにわずか40の多言語例を追加するだけで、チューニング中に見た言語だけでなく、未見の言語でも多言語指示追従能力が大幅に向上することを発見しました。一般的に、多言語混合でチューニングされたモデルは、特定の言語での例数が10分の1であるにもかかわらず、単一言語でチューニングされたモデルと同等またはそれ以上の性能を示すことが観察されました。最後に、命令チューニングセットの言語数を1から2、3、または4に増やすだけで、言語間の汎化能力が向上することを確認しました。これらの結果は、大規模な多言語命令チューニングモデルを構築するために必要な多言語指示-応答セットが非常に小規模で済むことを示唆しています。
テキストから3D生成におけるスコア蒸留の顕著な性能にもかかわらず、このような技術は視点の不整合問題、いわゆる「Janus」アーティファクトに悩まされることで知られています。これは、生成されたオブジェクトが複数の正面を持つことで各視点を偽装する現象です。経験的に有効な手法がスコアのバイアス除去やプロンプトエンジニアリングを通じてこの問題にアプローチしてきたものの、この問題を説明し解決するためのより厳密な視点は未だに確立されていません。本論文では、既存のスコア蒸留ベースのテキストから3D生成フレームワークが各視点で独立して最尤推定を行うことで退化し、結果としてモード崩壊問題に陥り、実践的にはJanusアーティファクトとして現れることを明らかにします。モード崩壊を抑制するために、レンダリングされた画像の分布に対応する変分目的関数にエントロピー項を再導入することでスコア蒸留を改善します。エントロピーを最大化することで、生成された3Dアセットにおける異なる視点間の多様性が促進され、Janus問題が緩和されます。この新しい目的関数に基づいて、Entropic Score Distillation (ESD) と呼ばれる新しい3Dスコア蒸留の更新規則を導出します。理論的に、ESDは変分スコア蒸留に対して分類器不要ガイダンスのトリックを採用するだけで簡略化および実装できることを明らかにします。非常に単純ではありますが、我々の広範な実験は、ESDがスコア蒸留におけるJanusアーティファクトの効果的な治療法となり得ることを成功裏に実証しています。
本論文では、ModelScope上で大規模言語モデル(LLM)を活用したユーザー主導のアートタイポグラフィ合成のための新規フレームワーク、WordArt Designer APIを紹介します。従来の硬直的なテンプレートに代わる、動的で適応的かつ計算効率の良い代替手段を提供することで、非専門家向けのアートタイポグラフィの簡素化という課題に取り組みます。我々のアプローチは、LLMの力を活用してユーザー入力を理解し解釈することで、より直感的なデザインプロセスを実現します。様々なケーススタディを通じて、ユーザーが自身の美的嗜好や機能要件を表現し、システムがそれをユニークで創造的なタイポグラフィデザインに変換する方法を実証します。評価の結果、既存システムと比較してユーザー満足度、デザインの柔軟性、創造的な表現力において大幅な改善が見られました。WordArt Designer APIは、タイポグラフィの芸術を民主化するだけでなく、パーソナライズされたデジタルコミュニケーションとデザインの新たな可能性を切り開きます。