翻訳付きの日次キュレーションされたAI研究論文
本報告書では、画像、音声、動画、テキスト理解において顕著な能力を発揮する新しいマルチモーダルモデルファミリー、Geminiを紹介する。Geminiファミリーは、複雑な推論タスクからデバイス上のメモリ制約のあるユースケースまで幅広いアプリケーションに適した、Ultra、Pro、Nanoの3つのサイズで構成されている。多岐にわたるベンチマークでの評価により、最も能力の高いGemini Ultraモデルは、32のベンチマークのうち30において最先端の性能を向上させることが示された。特に、よく研究されている試験ベンチマークMMLUにおいて人間の専門家レベルの性能を達成した初のモデルであり、また、我々が検証した20のマルチモーダルベンチマーク全てにおいて最先端の性能を向上させた。Geminiモデルのクロスモーダル推論と言語理解における新たな能力は、多様なユースケースを可能にすると考えられ、我々はそれらを責任を持ってユーザーに展開するためのアプローチについて議論する。
本論文では、異なるトポロジー構造と精密な制御点位置を持つベクトルフォントを生成可能な新しいニューラルアーキテクチャ「VecFusion」を提案する。本手法は、ラスタ拡散モデルとベクトル拡散モデルからなるカスケード型拡散モデルである。ラスタモデルは、フォントの全体的なスタイルと形状を捉えた低解像度のラスタライズフォントと補助的な制御点情報を生成し、ベクトルモデルは、第一段階で生成された低解像度ラスタフォントを条件としてベクトルフォントを合成する。長く複雑な曲線を合成するために、ベクトル拡散モデルはトランスフォーマーアーキテクチャと新しいベクトル表現を採用し、多様なベクトルジオメトリのモデリングと制御点の精密な予測を可能にする。実験結果から、従来のベクトルグラフィックス生成モデルと比較して、本提案のカスケード型ベクトル拡散モデルは、複雑な構造と多様なスタイルを持つ高品質なベクトルフォントを生成することが示された。
画像拡散モデルは、テキストから画像への生成や制御可能な画像合成など、さまざまなタスクに利用されてきた。最近の研究では、元のモデルに微調整を加えるチューニング手法が導入され、基礎的な生成拡散モデルの特定の適応において有望な結果が得られている。拡散モデルの主要なバックボーンを変更するのではなく、本研究ではU-Netにおけるスキップ接続の役割に着目し、エンコーダとデコーダ間で長距離情報を集約する階層的特徴が、画像生成の内容と品質に大きな影響を与えることを明らかにした。この観察に基づき、SC-Tunerと呼ばれる軽量なチューニングモジュールを用いてスキップ接続を統合・編集する効率的な生成チューニングフレームワーク、SCEditを提案する。さらに、提案フレームワークは、Controllable SC-Tunerを用いて異なる条件を注入することで、制御可能な画像合成への直接的な拡張を可能とし、多条件入力に対するネットワーク設計を簡素化・統一化する。SCEditは、軽量なチューナーにより、訓練パラメータ、メモリ使用量、計算コストを大幅に削減し、逆伝播はデコーダブロックのみを通過する。テキストから画像への生成および制御可能な画像合成タスクにおいて実施した広範な実験により、本手法の効率性と性能の優位性が実証された。プロジェクトページ: https://scedit.github.io/
大規模言語モデル(LLMs)は、人間レベルの推論および生成能力において顕著な熟練度を示しており、これが数学的問題解決への応用に関する広範な研究を促している。しかし、現在の研究は主にテキストベースの数学的問題に焦点を当てており、幾何学的情報を含む問題に関する調査は限られている。このギャップを埋めるため、我々はLLMsが画像入力を理解することで幾何学的問題を解決できるようにすることを目指す。まず、現在のマルチモーダル大規模言語モデル(MLLMs)がこの領域で抱える限界を分析する:それらは基本的な幾何学的要素とその関係を正確に理解するのに苦労している。これらの課題を克服するため、我々は幾何学的問題の特徴(例えば、独自の幾何学的論理形式や幾何学的スケーラビリティ)とテキストベースのLLMsの能力を活用し、既存のデータに基づいて強化されたマルチモーダル幾何学データセットを構築する。この拡張されたデータセット、Geo170Kは、17万以上の幾何学的画像-キャプションおよび質問-回答ペアを含む。構築したGeo170Kデータセットを活用し、我々はG-LLaVAを開発し、MathVistaベンチマークにおいてGPT-4-Vを大幅に上回る優れた性能を発揮することを示す。これはわずか7Bパラメータで達成された。
近年、Stable DiffusionやImagenなどのText-to-Image(T2I)生成モデルは、テキスト記述に基づく高解像度画像の生成において著しい進展を遂げている。しかし、生成された画像の多くは、アーティファクトや不自然さ、テキスト記述との不一致、美的品質の低さといった問題を依然として抱えている。大規模言語モデルにおける人間のフィードバックを用いた強化学習(RLHF)の成功に触発され、先行研究では、生成された画像に対する人間によるスコアをフィードバックとして収集し、報酬モデルを訓練することでT2I生成の改善を図ってきた。本論文では、フィードバック信号をさらに充実させるため、(i) テキストと不一致または不自然な画像領域をマークし、(ii) テキストプロンプトのどの単語が画像で誤って表現されているか、または欠落しているかを注釈する。我々は、18,000枚の生成画像に対してこのような詳細な人間のフィードバックを収集し、マルチモーダルトランスフォーマーを訓練して、そのフィードバックを自動的に予測する。予測された詳細な人間のフィードバックは、例えば、高品質な訓練データを選択して生成モデルのファインチューニングや改善を行うことや、予測されたヒートマップを用いて問題のある領域を修復するマスクを作成することなど、画像生成の改善に活用できることを示す。特に、この改善は、人間のフィードバックデータが収集された画像を生成したモデル(Stable Diffusionの派生モデル)を超えて、他のモデル(Muse)にも一般化されることが注目される。
ガウススプラッティングは、明示的(メッシュ)および暗黙的(NeRF)な3D表現の両方の利点を活用する強力な3D表現として登場しました。本論文では、ガウススプラッティングを活用して、テキスト記述から現実的なアニメーション可能なアバターを生成することを目指し、メッシュやNeRFベースの表現に課せられる制約(例えば、柔軟性や効率性)に対処します。しかし、ガウススプラッティングを単純に適用しても高品質なアニメーション可能なアバターは生成できず、学習の不安定性に悩まされます。また、細かいアバターの形状を捉えることができず、しばしば身体の部位が退化してしまいます。これらの問題に対処するため、まず、アニメーションを容易にするためにポーズ駆動型プリミティブ内でガウス関数を定義するプリミティブベースの3Dガウス表現を提案します。次に、数百万のガウス関数の学習を安定化し、均一化するために、ニューラル暗黙場を使用してガウス属性(例えば、色)を予測することを提案します。最後に、細かいアバターの形状を捉え、詳細なメッシュを抽出するために、3Dガウス関数に対する新しいSDFベースの暗黙的メッシュ学習アプローチを提案します。これにより、基盤となる形状を正則化し、非常に詳細なテクスチャ付きメッシュを抽出します。我々が提案する手法、GAvatarは、テキストプロンプトのみを使用して多様なアニメーション可能なアバターを大規模に生成することを可能にします。GAvatarは、外観と形状の品質の両方において既存の手法を大幅に上回り、1K解像度で極めて高速なレンダリング(100 fps)を実現します。
近年、自律エージェントによる意思決定を促進するために、3D理解が注目を集めている。しかし、既存の3Dデータセットや手法は特定のタスクに限定されることが多い。一方、大規模言語モデル(LLMs)やマルチモーダル言語モデル(MLMs)の進展により、一般的な言語および画像タスクにおいて優れた性能が示されている。したがって、MLMの潜在能力を引き出し、より広範なタスクに対応する3Dジェネラリストとして活用することは興味深い。しかし、現在のMLM研究は、大規模な3D指示追従データセットの不足により、3Dタスクにあまり焦点が当てられていない。本研究では、M3DBenchと呼ばれる包括的な3D指示追従データセットを提案する。このデータセットは以下の特徴を有する:1)テキスト、画像、3Dオブジェクト、その他の視覚的プロンプトが交錯した一般的なマルチモーダル指示をサポートする。2)領域レベルとシーンレベルの両方で多様な3Dタスクを統合し、現実世界の3D環境における基本的な能力を網羅する。3)32万以上の指示-応答ペアを有する大規模な3D指示追従データセットである。さらに、マルチモーダル3Dプロンプトの理解における大規模モデルの性能を評価するための新しいベンチマークを確立する。広範な実験により、本データセットとベースラインの有効性が実証され、一般的な3D中心タスクをサポートし、今後の研究を刺激するものである。
マルチモーダル大規模言語モデル(MLLMs)に対する関心の高まりは、例えばOpenAIのGPT-4V(ision)など、学界と産業界の両方において重要なトレンドとなっています。これらのモデルは、大規模言語モデル(LLMs)に視覚理解の強力な能力を付与し、多様なマルチモーダルタスクに対応できるようにします。最近では、GoogleがGeminiをリリースしました。これは、マルチモーダリティのためにゼロから構築された最新かつ最も能力の高いMLLMです。その優れた推論能力を考慮すると、Geminiはマルチモーダル学習におけるGPT-4Vのリーディングポジションに挑戦できるでしょうか?本論文では、Gemini Proの視覚理解能力について予備的な探求を行い、基本的な知覚、高度な認知、挑戦的な視覚タスク、および様々な専門能力という4つの領域を包括的にカバーします。Gemini Proを最先端のGPT-4Vと比較し、その上限を評価するとともに、最新のオープンソースMLLMであるSphinxとの比較を通じて、手作業の努力とブラックボックスシステムの間のギャップを明らかにします。質的なサンプルは、GPT-4VとGeminiが異なる回答スタイルと好みを示す一方で、同等の視覚推論能力を示すことができ、Sphinxはドメイン一般化に関してまだ彼らに遅れをとっていることを示しています。具体的には、GPT-4Vは詳細な説明と中間ステップを展開する傾向があり、Geminiは直接的で簡潔な回答を出力することを好みます。人気のあるMMEベンチマークでの定量的評価も、GeminiがGPT-4Vの強力な挑戦者となる可能性を示しています。Geminiの初期調査では、MLLMsに共通するいくつかの問題も観察され、人工汎用知能に向けてまだかなりの距離があることが示されています。MLLMの進捗を追跡するための私たちのプロジェクトは、https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models で公開されています。
ビジュアルストーリーテリングでは、巻物、漫画、パノラマなどの非典型的なアスペクト比の画像を使用して、表現力豊かで魅力的な物語を作成することが多い。生成AIは大きな成功を収め、クリエイティブ産業を再構築する可能性を示しているが、任意のサイズで一貫性があり、スタイル、コンセプト、レイアウトを制御可能なコンテンツを生成することは依然として課題である。これらはすべてビジュアルストーリーテリングにおいて不可欠な要素である。従来の手法の欠点である反復的な内容、スタイルの不一致、制御性の欠如を克服するため、我々はMagicScrollを提案する。これは、新しいセマンティックアウェアなノイズ除去プロセスを備えた、多層的で段階的な拡散ベースの画像生成フレームワークである。このモデルは、テキスト、画像、レイアウト条件を用いて、生成される画像のオブジェクト、シーン、背景レベルでの細かい制御を可能にする。また、絵画、漫画、シネマティックパノラマなどの媒体を含む、ビジュアルストーリーテリングのための非典型的なアスペクト比画像生成の最初のベンチマークを確立し、体系的な評価のためのカスタマイズされた指標を設定した。比較研究とアブレーション研究を通じて、MagicScrollは、物語のテキストとの整合性、視覚的な一貫性の向上、観客の関与において有望な結果を示している。我々は、AI研究者とビジュアルストーリーテリングに関わるクリエイティブ実践者とのより良い協力を目指して、コードとベンチマークを公開する予定である。
言語モデル(LM)は通常、訓練から除外された単一のデータセットに対するパープレキシティを報告する。このデータは、明示的または暗黙的に、さまざまな言語の分布からなるドメインで構成されている。一つの分布におけるパープレキシティが他の分布にも外挿されると仮定するのではなく、言語モデル評価のためのパープレキシティ分析(Paloma)は、nytimes.comからRedditのr/depressionまで、585のテキストドメインに対するLMの適合度を測定する。我々はベンチマークへの提出を呼びかけ、事前学習からのベンチマーク汚染の除去などのガイドラインへの準拠に基づいて、結果を比較可能性に応じて整理する。提出では、パラメータ数や訓練トークン数も記録し、これらのコスト指標に対する性能のパレート効率の比較を可能にする。我々は、人気のあるコーパスで事前学習された6つのベースラインの結果をベンチマークに追加する。ケーススタディでは、Common Crawl以外のデータなしで事前学習を行うと、多くのドメインへの適合が一貫しないことを発見するなど、Palomaで可能な分析を実証する。
近年の拡散モデルに基づく画像編集手法は、単純な構図の画像において印象的な編集能力を示してきた。しかし、複雑なシナリオにおける局所的な編集は、現実世界での需要が高まっているにもかかわらず、文献上十分に研究されていない。既存のマスクベースの修復手法は、編集領域内の基盤となる構造を保持する点で不十分である。一方、マスクフリーの注意機構ベースの手法は、より複雑な構図において編集の漏れや位置ずれを示すことが多い。本研究では、複雑なシナリオにおける局所的な画像編集を可能にする、学習不要の推論段階最適化手法であるMAG-Editを開発する。具体的には、MAG-Editは拡散モデル内のノイズ潜在特徴を、編集トークンの2つのマスクベースのクロスアテンション制約を最大化することで最適化し、それによって所望のプロンプトとの局所的な整合性を段階的に向上させる。広範な定量的および定性的な実験を通じて、本手法が複雑なシナリオ内での局所的な編集において、テキスト整合性と構造保存の両方を達成する有効性が実証された。
本論文では、大規模視覚言語モデル(LVLM)のための選好蒸留を探求し、視覚的コンテキストに基づいた有用で忠実な応答生成能力の向上を目指す。まず、AIアノテーションを活用して視覚言語フィードバック(VLFeedback)データセットを構築する。具体的には、複数のデータセットから得られたマルチモーダル指示に基づいて、12のLVLMからサンプリングされたモデルによって応答を生成する。生成された出力については、GPT-4Vを用いて有用性、視覚的忠実性、倫理的考慮の観点から評価を行う。さらに、選好監視を直接選好最適化(DPO)法を通じてQwen-VL-Chatに蒸留する。その結果得られたモデルSilkieは、MMEベンチマークにおいて知覚能力と認知能力に関してそれぞれ6.9%と9.5%の相対的改善を達成した。また、SilkieはMMHal-Benchベンチマークにおいて3.02の新たな最先端スコアを記録し、幻覚の低減を示した。さらなる分析により、我々のVLFeedbackデータセットを用いたDPOは、LVLMの細粒度知覚能力と複雑な認知能力を主に向上させ、人間によるアノテーション選好データセットと比較してより包括的な改善をもたらすことが明らかとなった。
拡散モデルは高品質な画像生成において大きな進展を遂げてきたが、時間的な動きの複雑さから、動画生成への応用は依然として課題となっている。ゼロショット動画編集は、事前学習済みの画像拡散モデルを利用してソース動画を新しい動画に変換する手法を提供する。しかし、既存の手法では厳密な時間的一貫性と効率的なメモリ消費を維持することが困難である。本研究では、フレーム間の自己注意トークンを統合することで、生成された動画の時間的一貫性を向上させる新たなアプローチを提案する。フレーム間で時間的に冗長なトークンを整列・圧縮することで、本手法は時間的整合性を改善し、自己注意計算におけるメモリ消費を削減する。この統合戦略は、フレーム間の時間的対応に基づいてトークンをマッチングし整列させることで、生成された動画フレームにおける自然な時間的一貫性を促進する。動画処理の複雑さを管理するため、動画をチャンクに分割し、チャンク内の局所的なトークン統合とチャンク間のグローバルなトークン統合を開発し、短期的な動画の連続性と長期的な内容の一貫性を確保する。本動画編集アプローチは、画像編集の進展を動画編集にシームレスに拡張し、最先端の手法を上回る時間的一貫性を実現する。
推測的デコーディングは、ドラフトモデルを活用してより大きなターゲットモデルにレビューさせることで、大規模言語モデル(LLM)の効率を向上させる。しかし、推測的デコーディングにおけるドラフト生成は、遅い自己回帰生成を伴い、異なる重要性を持つトークンを同じ時間配分で生成する。これらの非効率性が、その最適でない性能を引き起こしている。この問題に対処するため、我々はカスケード推測的ドラフト生成(CS. Drafting)を提案する。この新たなアプローチでは、2種類のカスケードを採用している。垂直カスケードは、ニューラルモデルからの自己回帰生成を排除する。水平カスケードは、理論的分析に基づく最適性を支持し、ドラフト生成における効率的な時間配分を構成する。両方のカスケードを組み合わせた我々のCS. Draftingアルゴリズムは、実験において推測的デコーディングに対して最大72%の追加高速化を達成しつつ、同じ出力分布を維持した。
大規模言語モデル(LLMs)は、複雑な多段階計画タスクにますます利用されており、その中でもツール検索(TR)ステップは成功を収める上で極めて重要である。TRのための2つの主要なアプローチとして、完全なクエリを利用する単一ステップ検索と、タスク分解(TD)を用いた逐次検索がある。後者では、完全なクエリが個別の原子サブタスクに分割される。単一ステップ検索は「ツール間依存性」を柔軟に扱う能力に欠ける一方、TDアプローチでは、ツールボックスが動的に進化するため「サブタスク-ツール原子性の整合性」を維持する必要がある。これらの制約を解決するため、我々はProgressive Tool retrieval to Improve Planning(ProTIP)フレームワークを提案する。ProTIPは、軽量で対照学習に基づくフレームワークであり、サブタスクラベルを明示的に必要とせずに暗黙的にTDを実行しつつ、サブタスク-ツール原子性を同時に維持する。ToolBenchデータセットにおいて、ProTIPはChatGPTのタスク分解ベースのアプローチを大きく上回り、TRにおけるRecall@K=10で24%の向上、計画生成におけるツール精度で41%の改善を達成した。
大規模言語モデルの成功により、自然言語処理(NLP)における評価パラダイムが変化しました。コミュニティの関心は、多くのタスク、ドメイン、データセットにわたるNLPモデルの比較に向かっており、しばしば極端な規模で行われています。これにより、新たなエンジニアリング上の課題が生じています。データセットやモデルの構築に関する取り組みは断片化しており、その形式やインターフェースは互換性がありません。その結果、公平かつ制御された大規模比較を行うためには、多大な(再)実装の努力が必要となることがしばしばあります。 Catwalkはこれらの問題に対処することを目指しています。Catwalkは、従来の教師あり学習やファインチューニングから、コンテキスト内学習のようなより現代的なパラダイムまで、幅広い既存のNLPデータセットとモデルに対する統一されたインターフェースを提供します。その慎重に設計された抽象化により、他の多くのものへの容易な拡張が可能です。Catwalkは、大規模な制御実験を実施するための障壁を大幅に低減します。たとえば、64以上のモデルを86以上のデータセットでファインチューニングし、評価することを、コードを一切書かずに単一のコマンドで行うことができます。Allen Institute for Artificial Intelligence(AI2)のAllenNLPチームによってメンテナンスされているCatwalkは、継続的なオープンソースの取り組みです:https://github.com/allenai/catwalk。
知識蒸留法は、最近、大規模拡散モデルの合成を高速化する有望な方向性として示されており、わずかな推論ステップのみを必要とします。いくつかの強力な蒸留法が最近提案されていますが、学生モデルが生成するサンプルの全体的な品質は、通常、教師モデルのものよりも低く、その実用性を妨げています。本研究では、教師テキスト-to-画像拡散モデルとその蒸留された学生バージョンによって生成されるサンプルの相対的な品質を調査します。主な実証的発見として、学生モデルが「近似」的な性質を持つにもかかわらず、学生サンプルの顕著な部分が教師サンプルよりも優れた忠実度を示すことを発見しました。この発見に基づいて、効果的なテキスト-to-画像合成のための学生と教師拡散モデルの適応的協力を提案します。具体的には、蒸留モデルが初期サンプルを生成し、その後、オラクルが低速の教師モデルによるさらなる改善が必要かどうかを決定します。広範な実験により、設計されたパイプラインが、さまざまな推論予算において、人間の好みの観点から最先端のテキスト-to-画像代替手法を凌駕することが実証されました。さらに、提案されたアプローチは、テキストガイド付き画像編集や制御可能な生成などの人気のあるアプリケーションに自然に使用することができます。
拡散モデルにおけるトレーニング不要のガイド付きサンプリングは、美的評価モデルなどの既存の事前学習済みネットワークを活用して生成プロセスをガイドします。現在のトレーニング不要ガイド付きサンプリングアルゴリズムは、クリーンな画像の1ステップ推定に基づいてガイダンスエネルギー関数を取得します。しかし、既存の事前学習済みネットワークはクリーンな画像で学習されているため、特に拡散モデルの生成プロセスの初期段階では、クリーンな画像の1ステップ推定が不正確になる可能性があります。これにより、初期タイムステップでのガイダンスが不正確になります。この問題を解決するため、我々はSymplectic Adjoint Guidance(SAG)を提案します。SAGは、2つの内部ステージで勾配ガイダンスを計算します。まず、SAGはn回の関数呼び出しを通じてクリーンな画像を推定します。ここでnは、特定の画質要件に合わせて調整可能な柔軟なハイパーパラメータとして機能します。次に、SAGはシンプレクティック随伴法を使用して、メモリ要件の面で正確かつ効率的に勾配を取得します。広範な実験により、SAGがガイド付き画像およびビデオ生成タスクにおいて、ベースラインと比較してより高品質な画像を生成することが実証されています。
本論文は、テキストから3D生成を行うための革新的な3D体積エンコーダを紹介する。拡散モデルのトレーニングデータを拡大するために、マルチビュー画像から効率的に特徴体積を取得する軽量ネットワークを開発した。その後、3D U-Netを用いてテキストから3D生成のための拡散モデルで3D体積をトレーニングした。本研究はさらに、不正確なオブジェクトキャプションと高次元特徴体積の課題に対処する。提案モデルは、公開されているObjaverseデータセットでトレーニングされ、テキストプロンプトから多様で認識可能なサンプルを生成する際に有望な結果を示した。特に、テキストキューを通じてオブジェクト部分の特性をより細かく制御し、単一のオブジェクト内で複数の概念をシームレスに組み合わせることでモデルの創造性を促進する。本研究は、効率的で柔軟かつスケーラブルな表現方法を導入することで、3D生成の進展に大きく貢献する。コードはhttps://github.com/tzco/VolumeDiffusionで公開されている。
本論文では、単眼動画に特化した変形可能な3Dガウシアンを用いた動的シーン再構築手法を提案する。ガウシアンスプラッティングの効率性を基盤として、本手法は、カノニカル空間に存在する変形可能なガウシアン集合と、多層パーセプトロン(MLP)によって定義される時間依存の変形場を用いて、動的要素を表現する。さらに、自然なシーンでは大部分が静的領域であるという仮定の下、MLPの表現能力を集中させるために、静的ガウシアンポイントクラウドを追加する。動的および静的ポイントクラウドを連結したものをガウシアンスプラッティングラスタライザに入力し、リアルタイムレンダリングを可能にする。この微分可能なパイプラインは、自己教師ありレンダリング損失を用いてエンドツーエンドで最適化される。本手法は、最先端の動的神経放射輝度場(NeRF)手法と同等の結果を達成しつつ、大幅に高速な最適化とレンダリングを実現する。プロジェクトウェブサイト: https://lynl7130.github.io/gaufre/index.html