翻訳付きの日次キュレーションされたAI研究論文
多くのAI企業は、著作権所有者の許可を得ずにデータ上で大規模言語モデル(LLM)を訓練しています。これに対する許容性は、司法管轄区によって異なります。EUや日本などの国では、一定の制約の下でこれが許可されていますが、アメリカ合衆国では法的状況がより曖昧です。法的地位に関わらず、クリエイティブプロデューサーからの懸念がいくつかの著作権訴訟につながり、訴訟の脅威は、最近のトレンドが企業や公益団体の両方によって訓練データセットに関する情報を最小限にする理由として一般的に引用されています。データ情報の制限トレンドは、研究者、監査人、および影響を受ける個人がAIモデルを理解するために必要な情報へのアクセスを拒否することで、透明性、説明責任、および広範なエコシステムにおける革新を妨げる害をもたらします。 これは、オープンアクセスおよびパブリックドメインデータで言語モデルを訓練することで緩和される可能性がありますが、執筆時点では、必要なコーパスを組み立てるための著しい技術的および社会的課題のため、そのようなモデルは(意義のあるスケールで訓練されたものは)存在しません。これらの課題には、不完全で信頼性のないメタデータ、物理的記録のデジタル化のコストと複雑さ、迅速に変化する状況で関連性と責任を確保するために必要な多様な法的および技術的スキルセットが含まれます。AIシステムが責任を持ってキュレーションおよび管理されたオープンライセンスデータで訓練される未来に向けて構築するには、法的、技術的、および政策領域を横断する協力が必要であり、メタデータ標準、デジタル化、およびオープンな文化の育成への投資が必要です。
マルチモーダル文書検索は、図、表、チャート、およびレイアウト情報など、さまざまな形式のマルチモーダルコンテンツを広範囲の文書から特定して取得するよう設計されています。その重要性にもかかわらず、マルチモーダル文書検索システムのパフォーマンスを効果的に評価するための堅牢なベンチマークが不足していることが顕著です。この課題に対処するために、本研究では、ページレベルとレイアウトレベルの2つの異なるタスクを含む新しいベンチマーク「MMDocIR」を導入します。前者は、長い文書内で最も関連性の高いページを特定することに焦点を当てており、後者は特定のレイアウトを検出し、全ページ分析よりも細かい粒度を提供します。レイアウトは、テキスト段落、方程式、図、表、またはチャートなど、さまざまな要素を指す可能性があります。MMDocIRベンチマークには、1,685の質問に対する専門家による注釈付きラベルと、173,843の質問に対するブートストラップされたラベルを備えた豊富なデータセットが含まれており、トレーニングと評価の両方においてマルチモーダル文書検索の進歩に向けた重要なリソースとなっています。厳密な実験を通じて、(i) ビジュアルリトリーバーがテキストの対応物を大幅に上回ること、(ii) MMDocIRトレーニングセットがマルチモーダル文書検索のトレーニングプロセスに効果的に貢献すること、および(iii) VLM-textを活用するテキストリトリーバーがOCR-textを使用するものよりも優れたパフォーマンスを発揮することが明らかになりました。これらの知見は、ビジュアル要素をマルチモーダル文書検索に統合することの潜在的な利点を強調しています。
近年、3Dシーン生成が注目を集め、大きな進歩を遂げています。4D都市の生成は、建物や車両など構造的に複雑で視覚的に多様なオブジェクトが存在し、都市環境における歪みに対する人間の感受性が高まるため、3Dシーンよりも難しい課題です。これらの問題に取り組むため、私たちはCityDreamer4Dを提案します。これは、非境界の4D都市を生成するために特別に設計された構成的生成モデルです。主な洞察は、1) 4D都市生成では、動的オブジェクト(例:車両)と静的シーン(例:建物や道路)を分離すべきであり、2) 4Dシーン内のすべてのオブジェクトは、建物、車両、背景などの異なる種類のニューラルフィールドから構成されるべきであるということです。具体的には、Traffic Scenario GeneratorとUnbounded Layout Generatorを提案し、高度にコンパクトなBEV表現を使用して、動的な交通シナリオと静的な都市レイアウトを生成します。4D都市内のオブジェクトは、背景、建物、車両のためのstuff-orientedおよびinstance-orientedニューラルフィールドを組み合わせて生成されます。背景とインスタンスの特性に合わせて、ニューラルフィールドは、シーンのパラメータ化としてカスタマイズされた生成ハッシュグリッドと周期的な位置埋め込みを使用します。さらに、OSM、GoogleEarth、CityTopiaを含む都市生成のための包括的なデータセットを提供します。OSMデータセットはさまざまな実世界の都市レイアウトを提供し、Google EarthとCityTopiaデータセットは、3Dインスタンスの注釈が付いた大規模で高品質な都市画像を提供します。構成的な設計を活用して、CityDreamer4Dは、インスタンス編集、都市のスタイリング、都市シミュレーションなどの様々な応用をサポートし、リアルな4D都市を生成する際の最先端のパフォーマンスを提供します。
動画生成は、拡散モデルの導入により著しい進歩を遂げ、生成される動画の品質が大幅に向上しました。しかしながら、最近の研究は主にモデルトレーニングのスケーリングに焦点を当てており、ビデオ生成プロセスへの表現の直接的な影響についての洞察は限られています。本論文では、まず中間層の特徴の特性を調査し、異なる層間での注意マップの著しい変動を見出しました。これらの変動は不安定な意味表現をもたらし、特徴間の累積的な差異に寄与し、結果として隣接フレーム間の類似性を低下させ、時間的な一貫性に悪影響を与えます。これを解決するために、我々はRepVideoという、テキストから動画への拡散モデル向けの強化された表現フレームワークを提案します。隣接層から特徴を蓄積して豊かな表現を形成することで、この手法はより安定した意味情報を捉えます。これらの強化された表現は、注意メカニズムへの入力として使用され、隣接フレーム間での特徴の一貫性を確保しながら、意味の表現力を向上させます。幅広い実験により、RepVideoが正確な空間外観を生成する能力を著しく向上させるだけでなく、複数のオブジェクト間の複雑な空間関係を捉えることができ、ビデオ生成における時間的一貫性も向上させることが示されました。
最近、事前学習済みのテキストからビデオへのモデルを用いた先入れ先出し(FIFO)ビデオ拡散が、調整不要の長いビデオ生成において効果的な手法として登場しました。この手法は、徐々にノイズが増加するビデオフレームのキューを維持し、キューの先頭でクリーンなフレームを継続的に生成しながら、テールにはガウスノイズが追加されます。しかし、FIFO-Diffusionは、フレーム間の対応モデリングの不足により、生成されたビデオで長距離の時間的一貫性を保つのに苦労することがよくあります。本論文では、任意の長さの一貫性のあるビデオの生成を可能にする、構造的および内容(主題)の一貫性を高めるために設計された新しいビデオノイズ除去フレームワークであるOuroboros-Diffusionを提案します。具体的には、構造的一貫性を向上させるために、キューの末尾で新しい潜在的サンプリング技術を導入し、フレーム間の知覚的に滑らかな遷移を確保します。主題の一貫性を向上させるために、短いセグメント内でフレーム間の主題を整列させ、より良い視覚的一貫性を達成するSubject-Aware Cross-Frame Attention(SACFA)メカニズムを考案します。さらに、セルフリカレントガイダンスを導入します。この技術は、キューの前部のすべての以前のクリーンなフレームからの情報を活用して、末尾のノイジーなフレームのノイズ除去をガイドし、豊富で文脈的なグローバル情報の相互作用を促進します。VBenchベンチマークでの長いビデオ生成の広範な実験は、特に主題の一貫性、動きの滑らかさ、時間的一貫性の観点から、当社のOuroboros-Diffusionの優越性を示しています。
我々は、Multimodal LLMs(MLLMs)の推論能力を引き出す方法に関する初の研究を提示します。この研究では、芸術作品の美学を評価するためにMLLMsの推論能力を評価することが求められます。この調査を容易にするために、芸術的スタイル化をベンチマークするための革新的な高品質データセットであるMM-StyleBenchを構築します。次に、人間の好みモデリングのための原則に基づいた方法を開発し、MLLMsの応答と人間の好みとの系統的相関分析を行います。実験から、MLLMsの芸術評価における固有の幻覚問題が明らかになり、応答の主観性と関連しています。ArtCoTが提案され、芸術特有のタスク分解と具体的な言語の使用が、MLLMsの美学に対する推論能力を向上させることを示しています。我々の研究結果は、芸術に関するMLLMsに関する貴重な示唆を提供し、スタイル変換や芸術的画像生成など、幅広い下流アプリケーションに利益をもたらす可能性があります。コードはhttps://github.com/songrise/MLLM4Artで入手可能です。
近年、画像合成やテキスト生成の分野において、人間が生成したコンテンツに匹敵するコンテンツを生成する人工知能によるコンテンツ(AIGC)の著しい進歩が達成されています。しかし、AIによる音楽生成の品質はまだこの水準に達しておらず、主に音楽の感情を効果的に制御し、高品質な出力を確保するという課題があります。本論文では、柔軟なプロンプト(画像、動画、テキスト、タグ、ハミング)をサポートし、感情をコントロール可能で高品質な象徴的音楽を生成する一般的な象徴的音楽生成フレームワークであるXMusicを提案します。XMusicは、XProjectorとXComposerの2つの中核コンポーネントから構成されています。XProjectorは、さまざまなモダリティのプロンプトを象徴的音楽要素(感情、ジャンル、リズム、音符)に解析し、一致する音楽を生成するための射影空間内に配置します。XComposerには、GeneratorとSelectorが含まれています。Generatorは、革新的な象徴的音楽表現に基づいて感情をコントロール可能でメロディアスな音楽を生成し、Selectorは、品質評価、感情認識、ジャンル認識のタスクを含むマルチタスク学習スキームを構築することで高品質な象徴的音楽を特定します。さらに、正確な感情とジャンルのラベルが付けられた108,023のMIDIファイルを含む大規模な象徴的音楽データセットであるXMIDIを構築しています。客観的および主観的評価により、XMusicは印象的な音楽品質で現行の最先端技術を大幅に上回ることが示されています。当社のXMusicは、2023年のWAICでコレクタブルのハイライトの1つとして選ばれました。XMusicのプロジェクトホームページはhttps://xmusic-project.github.ioです。
画像ピラミッドは、正確な視覚認識と理解のためのマルチスケール特徴を取得するために、トップパフォーマンスの手法で広く採用されています。しかし、現在の画像ピラミッドは、複数の解像度の画像を処理するために同じ大規模モデルを使用しており、膨大な計算コストがかかっています。この課題に対処するために、私たちは新しいネットワークアーキテクチャ、Parameter-Inverted Image Pyramid Networks(PIIP)を提案します。具体的には、PIIPは、ViTsまたはCNNなどの事前学習モデルをブランチとして使用して、マルチスケール画像を処理し、より高解像度の画像を処理するために小さなネットワークブランチを使用して計算コストとパフォーマンスをバランスさせます。異なる空間スケールからの情報を統合するために、新しいクロスブランチ特徴相互作用メカニズムを提案しています。PIIPの有効性を検証するために、様々な認識モデルとLLaVAと呼ばれる代表的なマルチモーダル大規模言語モデルに適用し、物体検出、セグメンテーション、画像分類、マルチモーダル理解などのさまざまなタスクで包括的な実験を行います。PIIPは、単一ブランチおよび既存のマルチ解像度アプローチよりも優れたパフォーマンスを低い計算コストで達成します。大規模なビジョン基盤モデルであるInternViT-6Bに適用すると、PIIPは、元の計算量の40%-60%で検出とセグメンテーションのパフォーマンスを1%-2%向上させ、最終的にMS COCOで60.0のbox AP、ADE20Kで59.7のmIoUを達成します。マルチモーダル理解において、私たちのPIIP-LLaVAは、TextVQAで73.0%、MMBenchで74.5%の精度を達成し、訓練データがわずか2.8Mで済みます。私たちのコードはhttps://github.com/OpenGVLab/PIIP で公開されています。
私たちはしばしば信頼できない当事者とやり取りします。プライバシーの優先順位付けは、特定の目標を達成するためにはプライベートデータの共有が必要となるため、これらのやり取りの効果を制限する可能性があります。この課題に対処する伝統的な方法は、信頼できる中間者を求めるか、マルチパーティ計算やゼロ知識証明など、データの公開量を制限する暗号プロトコルを構築することでした。暗号アプローチのスケーリングにおいて重要な進展があったものの、使用できるアプリケーションの規模や複雑さに制限が残っています。本論文では、信頼できる機械学習モデルが信頼できる第三者の役割を果たすことで、以前は実現不可能だったアプリケーションのためのセキュアな計算を可能にすると主張しています。特に、信頼できる機械学習モデルが入出力制約の下で相互作用し、明示的な情報フロー制御と状態の非保持を持つTrusted Capable Model Environments(TCMEs)を、セキュアな計算のスケーリングのための代替アプローチとして説明しています。このアプローチは、プライバシーと計算効率のバランスを実現し、古典的な暗号ソリューションでは現在実現不可能なプライベート推論を可能にします。TCMEによって可能になるいくつかのユースケースを説明し、いくつかの単純な古典的な暗号問題ですら既にTCMEで解決できることを示しています。最後に、現在の制限事項を概説し、それらを実装するための道筋について議論します。
クロスビューおよびクロスモダリティの両方に対する画像マッチングは、マルチモーダル知覚において重要な役割を果たします。実践上、異なる画像システム/スタイルによって引き起こされるモダリティ間のギャップは、マッチングタスクに大きな挑戦をもたらします。既存の研究は、特定のモダリティ用に不変の特徴を抽出し、限られたデータセットでトレーニングすることで、一般化性の低さを示しています。本論文では、複数のクロスモーダルケースに対する統一された画像マッチングフレームワークであるMINIMAを提案します。当MINIMAは、派手なモジュールを追求するのではなく、データスケーリングの観点から普遍的なパフォーマンスを向上させることを目指しています。このために、複数のモダリティ、豊富なシナリオ、正確なマッチングラベルを含む大規模なデータセットを自由に生成できるシンプルかつ効果的なデータエンジンを提案します。具体的には、生成モデルを用いて、安価で豊富なRGBのみのマッチングデータからモダリティをスケーリングアップします。この設定の下で、マッチングラベルとRGBデータセットの豊富な多様性が生成されたマルチモーダルデータによってよく継承されます。これにより、一般的なマルチモーダル画像マッチングのデータギャップを埋める新しい包括的データセットであるMD-synを構築します。MD-synを使用することで、任意の高度なマッチングパイプラインをランダムに選択されたモダリティペアで直接トレーニングし、クロスモーダル能力を獲得できます。19のクロスモーダルケースを含むインドメインおよびゼロショットマッチングタスクに対する幅広い実験は、当MINIMAがベースラインを大幅に上回り、モダリティ固有の方法さえも凌駕できることを示しています。データセットとコードは、https://github.com/LSXI7/MINIMA で入手可能です。
世界との相互作用は、多感覚の経験です。効果的な汎用相互作用を達成するには、視覚、触覚、音声など、利用可能なすべてのモダリティを活用して、部分的な観察からの欠落を補う必要があります。例えば、視覚が遮られてバッグに手を伸ばす場合、ロボットは触覚と音声の感覚に頼るべきです。しかし、最先端の汎用ロボットポリシーは通常、視覚と固有感覚の観察だけからロボットの行動を予測するために大規模なデータセットでトレーニングされています。本研究では、大規模なデータセットがすぐに利用できない異種センサーモダリティに対して自然言語を共通のクロスモーダルな基盤として活用することで、FuSeという革新的なアプローチを提案します。我々は、高レベルの意味をエンコードするために、多モーダルなコントラスティブ損失と感覚に基づいた言語生成損失を組み合わせます。ロボット操作の文脈において、FuSeが、視覚、触覚、音声などのモダリティを共同で推論する必要がある難しいタスクを、マルチモーダルなプロンプティング、構成的クロスモーダルプロンプティング、および対話するオブジェクトの記述など、ゼロショット設定で実行できるようにすることを示します。同じ手法が、拡散ベースの汎用ポリシーや大規模なビジョン-言語-アクション(VLA)モデルを含む、広範な異なる汎用ポリシーにも適用可能であることを示します。実世界での幅広い実験結果は、FuSeが、すべての考慮されるベースラインに比べて成功率を20%以上向上させることができることを示しています。