翻訳付きの日次キュレーションされたAI研究論文
ユーザーのニーズに合致した視覚コンテンツを合成するためには、生成されるオブジェクトのポーズ、形状、表情、レイアウトを柔軟かつ精密に制御する必要があります。既存のアプローチでは、手動で注釈付けされたトレーニングデータや事前の3Dモデルを用いて生成敵対ネットワーク(GAN)の制御性を獲得していますが、これらは柔軟性、精度、汎用性に欠けることが多いです。本研究では、図1に示すように、画像の任意のポイントをユーザーがインタラクティブにターゲットポイントまで「ドラッグ」することでGANを制御する、強力でありながらあまり探索されていない方法を検討します。これを実現するため、DragGANを提案します。DragGANは、1)ハンドルポイントをターゲット位置に向かって移動させる特徴ベースのモーション監視と、2)ハンドルポイントの位置を継続的に特定するために識別的なジェネレータ特徴を活用する新しいポイントトラッキングアプローチの2つの主要コンポーネントで構成されています。DragGANを通じて、誰でもピクセルが移動する場所を精密に制御しながら画像を変形させ、動物、車、人間、風景など多様なカテゴリのポーズ、形状、表情、レイアウトを操作できます。これらの操作はGANの学習された生成画像多様体上で行われるため、隠蔽されたコンテンツを幻覚させたり、オブジェクトの剛性に一貫して従う形状を変形させたりするような困難なシナリオでも現実的な出力を生成する傾向があります。定性的および定量的な比較により、画像操作とポイントトラッキングのタスクにおいて、DragGANが従来のアプローチよりも優れていることが示されています。また、GAN逆変換を通じた実画像の操作も紹介します。
言語モデルは、幅広いタスクにおける一般的な問題解決のためにますます活用されていますが、推論時には依然としてトークンレベルの左から右への意思決定プロセスに限定されています。これは、探索や戦略的な先読みが必要なタスク、または初期の決定が重要な役割を果たすタスクにおいて、モデルが不十分な結果を出す可能性があることを意味します。これらの課題を克服するため、我々は言語モデル推論の新しいフレームワーク「Tree of Thoughts(ToT)」を提案します。ToTは、言語モデルのプロンプティング手法として広く使われているChain of Thoughtアプローチを一般化し、問題解決に向けた中間ステップとして機能する一貫したテキストの単位(思考)を探索できるようにします。ToTにより、言語モデルは複数の異なる推論パスを考慮し、自己評価を行って次の行動を決定する意図的な意思決定が可能になります。また、必要に応じて先読みやバックトラッキングを行い、グローバルな選択を行うこともできます。我々の実験では、ToTが非自明な計画や探索を必要とする3つの新しいタスク(Game of 24、Creative Writing、Mini Crosswords)において、言語モデルの問題解決能力を大幅に向上させることが示されました。例えば、Game of 24では、Chain of Thoughtプロンプティングを用いたGPT-4が4%のタスクしか解決できなかったのに対し、我々の手法は74%の成功率を達成しました。すべてのプロンプトを含むコードリポジトリはこちら:https://github.com/ysymyth/tree-of-thought-llm。
本研究では、テキストプロンプトから画像と深度マップデータを生成する3D潜在拡散モデル(LDM3D)を提案します。これにより、ユーザーはテキストプロンプトからRGBD画像を生成することが可能になります。LDM3Dモデルは、RGB画像、深度マップ、キャプションを含むタプルのデータセットでファインチューニングされ、広範な実験を通じて検証されています。また、生成されたRGB画像と深度マップを使用して、TouchDesignerを用いた没入型でインタラクティブな360度ビュー体験を創出するDepthFusionというアプリケーションも開発しました。この技術は、エンターテインメントやゲームから建築やデザインに至るまで、幅広い産業を変革する可能性を秘めています。全体として、本論文は生成AIとコンピュータビジョンの分野に重要な貢献を果たし、LDM3DとDepthFusionがコンテンツ制作とデジタル体験を革新する可能性を示しています。本アプローチをまとめた短いビデオはhttps://t.ly/tdi2でご覧いただけます。
本論文では、テキスト、画像、点群の多モーダルな結合表現を学習する手法であるOpenShapeを紹介する。我々は、表現のアラインメントのために一般的に使用される多モーダル対比学習フレームワークを採用するが、特に3D表現のスケールアップに焦点を当て、オープンワールドの3D形状理解を可能にする。これを実現するために、複数の3Dデータセットをアンサンブルしてトレーニングデータをスケールアップし、ノイズの多いテキスト記述を自動的にフィルタリングおよび充実させるためのいくつかの戦略を提案する。また、3Dバックボーンネットワークのスケーリング戦略を探求・比較し、より効率的なトレーニングのための新しいハードネガティブマイニングモジュールを導入する。我々は、ゼロショット3D分類ベンチマークにおいてOpenShapeを評価し、オープンワールド認識におけるその優れた能力を実証する。具体的には、OpenShapeは1,156カテゴリのObjaverse-LVISベンチマークにおいて46.8%のゼロショット精度を達成し、既存の手法の10%未満と比較して大幅な向上を示す。また、ModelNet40において85.3%の精度を達成し、従来のゼロショットベースライン手法を20%上回り、一部の完全教師あり手法と同等の性能を発揮する。さらに、我々の学習した埋め込みが、サブカテゴリ、色、形状、スタイルなど、幅広い視覚的および意味的概念をエンコードし、きめ細かいテキスト-3Dおよび画像-3Dの相互作用を促進することを示す。CLIP埋め込みとの整合性により、我々の学習した形状表現は、点群キャプショニングや点群条件付き画像生成など、様々なアプリケーションにおいて、既存のCLIPベースのモデルと統合することも可能である。
マルチモーダル大規模言語モデルは、人工汎用知能(AGI)に向けた重要なステップと見なされており、ChatGPTの登場により大きな注目を集めています。しかし、現在の音声言語モデルは通常、カスケードパラダイムを採用しており、モーダル間の知識転移を妨げています。本論文では、SpeechGPTを提案します。これは、本質的なクロスモーダル会話能力を備えた大規模言語モデルであり、マルチモーダルコンテンツを認識し生成することができます。離散音声表現を用いて、まず大規模なクロスモーダル音声指示データセットであるSpeechInstructを構築します。さらに、モーダル適応事前学習、クロスモーダル指示ファインチューニング、およびモーダル連鎖指示ファインチューニングを含む三段階の学習戦略を採用します。実験結果は、SpeechGPTがマルチモーダルな人間の指示に従う印象的な能力を持ち、一つのモデルで複数のモーダルを扱う可能性を強調しています。デモはhttps://0nutation.github.io/SpeechGPT.github.io/で公開されています。
大規模言語モデル(LLMs)は、ユーザーに合わせたタスクに対する印象的なゼロショット能力により、人工汎用知能(AGI)への進展を著しく加速させ、幅広いアプリケーションにおいて莫大な可能性を秘めています。しかし、コンピュータビジョンの分野では、多くの強力なビジョン基盤モデル(VFMs)が利用可能であるにもかかわらず、それらは事前に定義された形式のタスクに限定されており、LLMsのオープンエンドなタスク能力には及んでいません。本研究では、ビジョン中心タスクのためのLLMベースのフレームワークであるVisionLLMを提案します。このフレームワークは、画像を外国語として扱い、ビジョン中心タスクと言語タスクを統一的な視点で捉えることで、言語指示を用いて柔軟に定義・管理できるようにします。LLMベースのデコーダは、これらの指示に基づいてオープンエンドなタスクに対する適切な予測を行うことができます。大規模な実験により、提案されたVisionLLMが、細粒度のオブジェクトレベルから粗粒度のタスクレベルまでのカスタマイズを言語指示を通じて実現し、良好な結果を得られることが示されました。特に、汎用LLMベースのフレームワークを用いて、我々のモデルはCOCOにおいて60%以上のmAPを達成し、検出専用モデルと同等の性能を発揮することが注目に値します。このモデルが、汎用ビジョンと言語モデルの新しいベースラインとなることを期待しています。デモはhttps://github.com/OpenGVLab/InternGPTに基づいて公開されます。コードはhttps://github.com/OpenGVLab/VisionLLMで公開予定です。
機械の自律性と人間の制御を実現することは、インタラクティブAIシステムの設計においてしばしば相反する目標として表れます。Stable Diffusionのような視覚生成基盤モデルは、特に任意の言語でプロンプトされた場合に、これらの目標を達成する可能性を示しています。しかし、空間的、構造的、幾何学的な制御を伴う画像生成においては、しばしば不十分な結果に終わります。様々な視覚条件を単一の統一モデルに統合するような制御の統合は、未解決の課題として残されています。これに対応して、我々はUniControlを紹介します。これは、任意の言語プロンプトを可能にしつつ、多様な制御可能な条件から画像(C2I)タスクを単一のフレームワークに統合する新しい生成基盤モデルです。UniControlは、ピクセルレベルで正確な画像生成を可能にし、視覚条件が生成される構造に主に影響を与え、言語プロンプトがスタイルと文脈を導きます。UniControlに多様な視覚条件を処理する能力を備えさせるため、我々は事前学習済みのテキストから画像への拡散モデルを拡張し、異なるC2Iタスクに同時に適応できるように拡散モデルを調整するタスク対応型HyperNetを導入しました。9つの異なるC2Iタスクで学習されたUniControlは、未見の視覚条件に対して印象的なゼロショット生成能力を示します。実験結果は、UniControlが同等のモデルサイズの単一タスク制御手法の性能をしばしば上回ることを示しています。この制御の多様性により、UniControlは制御可能な視覚生成の分野における重要な進展として位置づけられます。
拡散モデルはその印象的な生成能力で注目を集めていますが、現状では正確で一貫性のあるテキストのレンダリングに課題を抱えています。この問題に対処するため、私たちはTextDiffuserを提案します。TextDiffuserは、背景と調和した視覚的に魅力的なテキストを含む画像の生成に焦点を当てています。TextDiffuserは2段階で構成されます:まず、Transformerモデルがテキストプロンプトから抽出されたキーワードのレイアウトを生成し、次に拡散モデルがテキストプロンプトと生成されたレイアウトに基づいて画像を生成します。さらに、OCRアノテーション付きの最初の大規模テキスト画像データセットであるMARIO-10Mを提供します。これは、テキスト認識、検出、文字レベルのセグメンテーションアノテーションを含む1000万の画像-テキストペアで構成されています。また、テキストレンダリング品質を評価するための包括的なツールとしてMARIO-Evalベンチマークを収集しました。実験とユーザー調査を通じて、TextDiffuserがテキストプロンプト単体またはテキストテンプレート画像と組み合わせて高品質のテキスト画像を作成する柔軟性と制御性を備えていること、および不完全な画像をテキストで再構築するテキストインペインティングを実行できることを示します。コード、モデル、データセットはhttps://aka.ms/textdiffuserで公開されます。
表現力豊かなテキスト音声合成(TTS)を実現するため、テキスト表現の改善が注目を集めています。しかし、既存の研究はマスクされたトークンの再構築タスクを通じて韻律を暗黙的に学習するのみで、学習効率が低く、韻律モデリングが困難という課題がありました。本論文では、異なる文脈下での同一テキストトークンの韻律変化を明示的に学習するクロスモーダル対比事前学習フレームワーク「CLAPSpeech」を提案します。具体的には、1) エンコーダ入力と対比損失の精巧な設計により、テキスト文脈とそれに対応する韻律パターンを共同マルチモーダル空間で関連付けるようモデルを促します。2) 複数のレベルで韻律パターンを捉えるため、マルチスケール事前学習パイプラインを導入します。既存のTTSモデルにCLAPSpeechを組み込むことで、より優れた韻律を実現する方法を示します。3つのデータセットを用いた実験では、CLAPSpeechが既存のTTS手法の韻律予測を改善できるだけでなく、複数言語やマルチスピーカーTTSへの適応能力も示されています。また、CLAPSpeechの性能の背後にある原理を深く分析し、アブレーションスタディを通じて各コンポーネントの必要性を実証しました。ソースコードと音声サンプルはhttps://clapspeech.github.ioで公開しています。
Stable Diffusionのような拡散モデルは、テキストから画像生成において驚異的な性能を示しています。テキストから画像生成では、テキストプロンプトで指定された細かな詳細や属性を持つ視覚的概念を生成する必要があるため、事前学習された拡散モデルが獲得した強力な表現を、画像とテキストのマッチングといった識別タスクに活用できるでしょうか?この疑問に答えるため、我々はDiscriminative Stable Diffusion(DSD)という新しいアプローチを提案します。これは、事前学習されたテキストから画像生成の拡散モデルを、少数ショットの識別学習器に変換するものです。我々のアプローチでは、Stable Diffusionモデルのクロスアテンションスコアを用いて、視覚情報とテキスト情報の相互影響を捉え、アテンションベースのプロンプト学習を通じてモデルを微調整し、画像とテキストのマッチングを行います。いくつかのベンチマークデータセットにおいて、DSDを最先端の手法と比較することで、事前学習された拡散モデルを識別タスクに使用する可能性を示し、少数ショットの画像とテキストのマッチングにおいて優れた結果を得ました。
物体検出は限られたカテゴリからオープンな語彙へと拡張されてきました。今後、完全な知覚システムを構築するためには、より細粒度な物体記述や物体の部分を理解することが必要です。本論文では、オープンな語彙の物体とその部分セグメンテーションの両方を予測可能な検出器を提案します。この能力は2つの設計に由来します。第一に、部分レベル、物体レベル、画像レベルのデータを統合して学習することで、言語と画像の間のマルチ粒度アラインメントを構築します。第二に、新規物体をベース物体との密な意味的対応関係によって部分に解析します。これら2つの設計により、検出器は様々なデータソースと基盤モデルから大きな恩恵を受けることが可能になります。オープンな語彙の部分セグメンテーション実験では、PartImageNetにおけるクロスデータセット汎化においてベースラインを3.3~7.3 mAP上回り、Pascal Partにおけるクロスカテゴリ汎化では7.3 novel AP_{50}の改善を達成しました。最後に、広範囲の部分セグメンテーションデータセットに汎化しつつ、データセット固有の学習よりも優れた性能を実現する検出器を学習しました。
事実整合性の評価は、自然言語推論(NLI)モデルを用いて行われることが多いが、これらのモデルは要約の評価において限定的な成功しか収めていない。従来の研究では、合成トレーニングデータを用いてこれらのモデルを改善してきた。しかし、そのデータは通常、人間が書いた要約を改変したものであり、実際のモデル生成要約とは特性が異なることが多く、可能な事実誤りのカバー範囲も限られている。一方で、大規模言語モデル(LLM)は最近、生成タスクを直接評価する際に有望な結果を示しているが、実用的な使用には計算コストが高すぎる。これらの制限を動機として、我々はTrueTeacherを導入する。これは、LLMを用いて多様なモデル生成要約にアノテーションを付けることで合成データを生成する手法である。従来の研究とは異なり、TrueTeacherは人間が書いた要約に依存せず、本質的に多言語対応である。TRUEベンチマークでの実験では、我々のデータを用いてトレーニングした学生モデルが、同程度の能力を持つ最先端のモデルとLLM教師モデルの両方を大幅に上回ることを示した。体系的な研究において、TrueTeacherを既存の合成データ生成手法と比較し、その優位性とドメインシフトに対する堅牢性を実証した。mFACEデータセットを使用して、我々の手法が多言語シナリオにも一般化することを示した。最後に、TrueTeacherを用いて生成した140万の例を含む大規模な合成データセットを公開する。
我々は、長い入力の処理に適した多言語対応かつ効率的なテキスト間変換モデルの開発について報告する。このモデルはmLongT5と名付けられ、LongT5のアーキテクチャを基盤としつつ、mT5の事前学習に用いられた多言語データセットとUL2の事前学習タスクを活用している。本モデルを多言語要約や質問応答タスクの多様なデータセットで評価した結果、mLongT5はmBARTやM-BERTといった既存の多言語モデルと比較して優れた性能を示すことが確認された。
シンボリック音楽生成は、音楽の音符を作成することを目的としており、ユーザーが音楽を作曲するのを支援することができます。例えば、ゼロからターゲットの楽器トラックを生成したり、ユーザーが提供したソーストラックに基づいて生成したりすることができます。ソーストラックとターゲットトラックの多様で柔軟な組み合わせを考慮すると、任意のトラックを生成できる統一モデルが極めて重要です。これまでの研究では、音楽表現とモデルアーキテクチャの制約により、このニーズに対応できていませんでした。このニーズに対応するため、我々はGETMusic(`GET'はGEnerate music Tracksの略)という統一表現と拡散フレームワークを提案します。これには、GETScoreという新しい音楽表現と、GETDiffという拡散モデルが含まれます。GETScoreは音符をトークンとして表現し、トラックを垂直に積み重ね、時間とともに水平に進む2D構造で整理します。トレーニング中、トラックはランダムにターゲットまたはソースとして選択されます。フォワードプロセスでは、ターゲットトラックのトークンがマスクされて破損しますが、ソーストラックはグラウンドトゥルースとして残ります。デノイジングプロセスでは、GETDiffはソーストラックを条件として、マスクされたターゲットトークンを予測することを学習します。GETScoreの分離されたトラックとモデルの非自己回帰的な動作により、GETMusicはゼロからまたはソーストラックを条件として、任意のターゲットトラックの生成を明示的に制御できます。我々は6つの楽器トラックを含む音楽生成に関する実験を行い、合計665の組み合わせを結果として得ました。GETMusicは多様な組み合わせにおいて高品質な結果を提供し、特定の組み合わせのために提案されたこれまでの研究を凌駕しています。
視覚的テキストは人の心にイメージを喚起するが、非視覚的テキストはそうではない。テキストの視覚性を自動的に検出する方法は、関連する画像でテキストを補強する能力を解き放つだろう。なぜなら、ニューラルテキスト画像生成および検索モデルは、入力テキストが視覚的性質を持つという暗黙の前提で動作するからである。我々は、3,620の英語文とそれらの視覚性スコアを複数の人間アノテーターから提供されたデータセットをキュレーションした。さらに、テキストと視覚的アセットを含むドキュメントを使用して、ドキュメントテキストと関連画像の遠隔監視コーパスを作成した。また、テキストと画像の1対1対応を前提とするCLIPのような大規模視覚言語モデルを、テキスト入力のみからテキストの視覚性をスコアリングするタスクに適応させるためのファインチューニング戦略を提案する。我々の戦略は、モデルの対照学習目的を変更し、非視覚的と識別されたテキストを共通のNULL画像にマッピングしながら、視覚的テキストをドキュメント内の対応する画像にマッチングさせることを含む。提案されたアプローチを、(i)視覚的および非視覚的テキストを正確に分類する能力、および(ii)心理言語学研究で視覚的と識別された単語に注意を向ける能力について評価する。実証評価は、提案されたタスクに対して、我々のアプローチがいくつかのヒューリスティックおよびベースラインモデルよりも優れていることを示している。さらに、テキストの視覚性をモデル化することの重要性を強調するために、DALL-Eのようなテキスト画像生成システムの定性分析を行う。
我々は、制御のためのダイナミクスモデル(TDM)としてTransformerシーケンスモデルを使用する方法を調査する。DeepMind制御スイートにおける一連の実験において、まず、TDMが単一環境学習設定においてベースラインモデルと比較して良好な性能を発揮することを確認した。次に、TDMは未見の環境に対する強い汎化能力を示し、少数ショット設定(汎用モデルがターゲット環境からの少量のデータでファインチューニングされる場合)とゼロショット設定(汎用モデルが追加のトレーニングなしで未見の環境に適用される場合)の両方で優れた性能を発揮した。さらに、システムダイナミクスを汎化することが、最適な行動を直接ポリシーとして汎化するよりもはるかに効果的であることを実証した。これにより、TDMは制御の基盤モデルとして有望な要素となっている。
本論文では、高品質なオープンドメイン動画を生成する革新的なフレームワークであるVideoFactoryを紹介します。VideoFactoryは、透かしのない高解像度(1376x768)、ワイドスクリーン(16:9)の動画を生成する能力に優れており、ユーザーにとって魅力的な体験を提供します。テキスト指示に基づいて動画を生成することは、空間と時間の複雑な関係をモデル化することや、大規模なテキスト-動画ペアデータの不足など、重要な課題を抱えています。従来のアプローチでは、事前学習済みのテキストから画像を生成するモデルを拡張し、時間的な1次元畳み込み/アテンションモジュールを追加して動画生成を行っていました。しかし、これらのアプローチは空間と時間を共同でモデル化することの重要性を見落としており、必然的に時間的な歪みやテキストと動画の不一致を引き起こしていました。本論文では、空間的知覚と時間的知覚の相互作用を強化する新しいアプローチを提案します。特に、3Dウィンドウ内で「クエリ」の役割を空間ブロックと時間ブロックの間で交互に切り替えるスワップド・クロスアテンションメカニズムを活用し、互いに強化し合うことを可能にします。高品質な動画生成のためのモデル能力を最大限に引き出すために、HD-VG-130Mと呼ばれる大規模な動画データセットをキュレーションしました。このデータセットは、オープンドメインから収集された1億3000万のテキスト-動画ペアで構成され、高解像度、ワイドスクリーン、透かしのない特性を保証します。客観的指標とユーザー調査により、本アプローチがフレームごとの品質、時間的相関、テキスト-動画の整合性において明確な差をつけて優れていることが示されています。
生成事前学習型Transformer(GPT)は自然言語処理において大きな成功を収めており、その関連技術は分子モデリングにも適用されています。科学の発見においてテキストが最も重要な記録媒体であることを考慮し、本論文では、テキストでラップされたSMILES(分子のシーケンス表現)に事前学習を行ったテキストと分子の統一言語モデルであるMolXPTを提案します。具体的には、各シーケンス内の分子名を検出し、対応するSMILESに置換します。これにより、SMILESは周囲のテキストから情報を活用でき、逆もまた同様です。上記のラップされたシーケンス、PubMedからのテキストシーケンス、およびPubChemからのSMILESシーケンスをすべて言語モデルに入力して事前学習を行います。実験結果は、MolXPTがMoleculeNetにおける分子特性予測の強力なベースラインを上回り、テキスト-分子翻訳において最高のモデルと同等の性能を発揮しながらそのパラメータ数の半分以下を使用し、ファインチューニングなしでゼロショット分子生成を可能にすることを示しています。
拡散モデルを用いた高品質な画像生成において大きな進展があったにもかかわらず、フォトリアルで時間的に一貫性のあるアニメーションフレームのシーケンスを合成することは、まだ初期段階にあります。画像生成のための既存の大規模データセットは利用可能ですが、同じ規模のビデオデータを収集することは依然として困難です。また、ビデオ拡散モデルのトレーニングは、画像モデルに比べて計算コストがはるかに高くなります。本研究では、ビデオ合成タスクの実用的な解決策として、事前学習済みの画像拡散モデルをビデオデータでファインチューニングする方法を探ります。ビデオ拡散において、画像ノイズの事前分布を単純にビデオノイズの事前分布に拡張すると、最適な性能が得られないことがわかりました。私たちが慎重に設計したビデオノイズの事前分布は、大幅に優れた性能をもたらします。広範な実験的検証により、私たちのモデル「Preserve Your Own Correlation (PYoCo)」が、UCF-101およびMSR-VTTベンチマークにおいてSOTAのゼロショットテキスト・トゥ・ビデオ結果を達成することが示されました。また、小規模なUCF-101ベンチマークにおいて、従来の手法よりも10倍小さなモデルで、大幅に少ない計算量でSOTAのビデオ生成品質を達成しました。