翻訳付きの日次キュレーションされたAI研究論文
高品質なテクスチャマップはリアルな3Dアセットのレンダリングに不可欠ですが、大規模データセットにおいてテクスチャ空間での直接学習を探究した研究はほとんどありませんでした。本研究では、3Dテクスチャのテスト時最適化に事前学習された2D拡散モデルに依存する従来のアプローチから脱却します。代わりに、UVテクスチャ空間そのものでの学習という基本的な問題に焦点を当てます。初めて、フィードフォワード方式で高解像度のテクスチャマップを直接生成できる大規模な拡散モデルを訓練します。高解像度UV空間での効率的な学習を促進するために、UVマップ上での畳み込みとポイントクラウド上での注意層を交互に配置するスケーラブルなネットワークアーキテクチャを提案します。この設計を活用して、テキストプロンプトや単一視点画像に誘導されたUVテクスチャマップを生成できる7億パラメータの拡散モデルを訓練します。訓練後、モデルは自然にテキストによるテクスチャ修復、疎な視点のテクスチャ補完、およびテキスト駆動のテクスチャ合成など、さまざまな拡張アプリケーションをサポートします。プロジェクトページはこちら:http://cvmi-lab.github.io/TEXGen/。
主体駆動型画像修復は、拡散モデルの最近の進歩と並んで画像編集における人気のあるタスクとして台頭しています。従来の手法は主に同一性の保存に焦点を当ててきましたが、挿入されたオブジェクトの編集可能性を維持するのに苦労しています。この論文では、与えられたシーンに対象のオブジェクトをユーザー指定の位置に挿入することに優れた拡散ベースの生成モデルであるDreamMixを紹介します。同時に、それらの属性に対する任意のテキスト駆動修正を可能にします。具体的には、高度な基礎となる修復モデルを活用し、正確な局所オブジェクトの挿入と効果的なグローバルな視覚的整合性をバランス良く保つために、分離された局所-グローバル修復フレームワークを導入します。さらに、属性の分離メカニズム(ADM)とテキスト属性の置換(TAS)モジュールを提案し、それぞれテキストベースの属性ガイダンスの多様性と識別能力を向上させます。幅広い実験により、DreamMixがオブジェクトの挿入、属性の編集、および小さなオブジェクトの修復を含むさまざまなアプリケーションシナリオにおいて、同一性の保存と属性の編集可能性を効果的にバランスさせることが示されます。当該コードはhttps://github.com/mycfhs/DreamMix で公開されています。
Transformerベースの大規模言語モデル(LLMs)による長いシーケンスでの推論は、自己注意メカニズムの二次の複雑さにより、コストがかかり遅くなります。私たちはStar Attentionを導入しました。これは、複数のホスト間でアテンションを分割し、通信オーバーヘッドを最小限に抑えることで計算効率を向上させる2段階のブロック疎な近似です。最初の段階では、コンテキストはホスト間でブロックごとのローカルなアテンションを使って並列に処理されます。2番目の段階では、クエリとレスポンスのトークンは、シーケンス全体のアテンションを介してすべての以前のキャッシュされたトークンにアテンションを向けます。Star Attentionは、グローバルアテンションでトレーニングされたほとんどのTransformerベースのLLMsとシームレスに統合され、メモリ要件と推論時間を最大11倍削減し、95-100%の精度を維持します。
グラフィカルユーザーインターフェース(GUI)アシスタントの構築は、人間のワークフロー生産性を向上させるための大きな可能性を秘めています。ほとんどのエージェントは言語ベースであり、テキスト豊富なメタ情報(例:HTMLやアクセシビリティツリー)を持つクローズドソースAPIに依存していますが、人間と同様にUIビジュアルを認識する能力に限界があり、GUIビジュアルエージェントの必要性が浮き彫りになっています。本研究では、デジタル世界においてビジョン-言語-アクションモデルであるShowUIを開発しました。このモデルには以下の革新が特徴として組み込まれています:(i) UIに誘導されたビジュアルトークン選択により、スクリーンショットをUIに接続されたグラフとして定式化し、冗長な関係を適応的に特定し、自己注意ブロック中のトークン選択の基準として機能します;(ii) ビジョン-言語-アクションストリーミングを交互に行うことで、GUIタスク内の多様なニーズを柔軟に統合し、ナビゲーションにおけるビジュアルアクション履歴の効果的な管理を可能にし、各スクリーンショットごとにマルチターンのクエリ-アクションシーケンスをペアリングしてトレーニング効率を向上させます;(iii) 慎重なデータキュレーションと再サンプリング戦略を用いた小規模で高品質なGUI指示従属データセット。これらのコンポーネントを備えたShowUIは、256Kのデータを使用する軽量な2Bモデルで、ゼロショットスクリーンショットグラウンディングにおいて強力な75.1%の精度を達成しています。UIに誘導されたトークン選択は、トレーニング中に冗長なビジュアルトークンの33%を削減し、パフォーマンスを1.4倍高速化しています。Web Mind2Web、モバイルAITW、オンラインMiniWob環境を横断するナビゲーション実験は、当社のモデルの効果と潜在性をさらに強調しています。モデルはhttps://github.com/showlab/ShowUIで入手可能です。
画像拡散モデルによって推進された画像編集の最近の進歩は、著しい進展を示しています。しかしながら、これらのモデルはしばしば複雑な編集指示に正確に従うことが難しく、元の画像の主要な要素を変更することで忠実度を損なうという重要な課題が残っています。同時に、ビデオ生成は著しい進歩を遂げ、一貫して連続的な世界シミュレーターとして効果的に機能するモデルが登場しています。本論文では、画像編集において画像からビデオへのモデルを利用することで、これら二つの分野を統合することを提案します。我々は画像編集を一連のプロセスとして再定義し、事前学習されたビデオモデルを使用して元の画像から所望の編集への滑らかな遷移を作成します。このアプローチは画像多様体を連続的に移動し、元の画像の主要な側面を保持しながら一貫した編集を確保します。我々のアプローチは、テキストベースの画像編集において最先端の結果を達成し、編集の正確さと画像の保存の両方で著しい改善を示しています。
人工一般知能(AGI)の主要な方向性として、多様なモーダルを持つ大規模言語モデル(MLLMs)が産業界と学術界の両方から注目を集めています。事前学習済みのLLMsを基盤として構築されたこのモデルファミリーは、流れ図からコードを作成したり、画像に基づいて物語を作成するなど、印象的な多様な知覚と推論能力をさらに発展させています。開発プロセスにおいて、モデルの改善に対する直感的なフィードバックとガイダンスを提供するため、評価は重要です。従来の画像分類など単一のタスクに偏った訓練-評価-テストのパラダイムとは異なり、MLLMsの汎用性はさまざまな新しいベンチマークと評価手法の台頭を促しています。本論文では、MLLMの評価に関する包括的な調査を行い、以下の4つの主要な側面について論じます:1)評価能力によって分類された要約されたベンチマークの種類、基本的な能力、モデルの自己分析、拡張アプリケーションを含む;2)データ収集、注釈、および注意事項から構成されるベンチマークの典型的な構築プロセス;3)判断、尺度、ツールキットから構成される体系的な評価方法;4)次のベンチマークへの展望。この研究は、研究者が異なるニーズに応じてMLLMsを効果的に評価する方法を簡単に把握し、より良い評価方法をインスピレーションとして提供し、MLLM研究の進歩を促進することを目的としています。
重いMultimodal Large Language Models(MLLMs)の推論を加速するために、この研究はトレーニング不要のトークン削減研究の現在の状況を見直しました。既存の手法の重要な部分が密接に絡み合っており、その相互関係や効果が比較、転送、拡張のためにはっきりとしておらず、残念に思っています。そのため、私たちはトークン削減をパイプライン内の3つの異なる段階に分解する統一された「フィルター-相関-圧縮」パラダイムを提案します。このパラダイムは一貫した設計目標と要素を維持しながら、独自の実装を可能にします。さらに、一般的な作品を解明し、その普遍性を示すためにそれらをパラダイムに包含します。最後に、推論のさまざまな段階で速度と精度のバランスを保ちつつ、パラダイムに基づいた一連の手法を提供します。10のベンチマークを通じた実験結果は、私たちの手法がFLOPsを最大82.4%削減し、パフォーマンスにほとんど影響を与えず、同時に最先端のトレーニング不要の手法を凌駕していることを示しています。私たちのプロジェクトページはhttps://ficoco-accelerate.github.io/ にあります。
スケッチは、アイデアを具体化し、さまざまな分野にわたる迅速な探索とビジュアルコミュニケーションを可能にする多目的ツールとして機能します。人工システムはコンテンツ作成や人間とコンピュータのインタラクションにおいて大きな進歩を遂げてきましたが、人間のスケッチの動的で抽象的な性質を捉えることは依然として難しい課題です。本研究では、ユーザーが動的で対話的なやり取りを通じてスケッチを作成、修正、洗練させることができる、言語駆動型の連続スケッチ生成手法であるSketchAgentを紹介します。当手法はトレーニングや微調整を必要としません。代わりに、市販のマルチモーダル大規模言語モデル(LLM)の連続的な性質と豊富な事前知識を活用します。モデルに導入される直感的なスケッチ言語は、コンテキスト内の例を通じて導入され、文字列ベースのアクションを使用して「描く」ことができるようになります。これらはベクトルグラフィックに変換され、その後、ピクセルキャンバス上にスケッチを作成するためにレンダリングされます。その後、さらなるタスクのために再度アクセスできます。ストロークごとに描画することで、当エージェントはスケッチに固有の進化する動的な特性を捉えます。SketchAgentは多様なプロンプトからスケッチを生成し、対話に基づいた描画を行い、人間のユーザーと意味のある協力関係を築くことができることを示しています。
低ビット量子化は、大規模な未訓練の大規模言語モデル(LLM)に有利であることを明らかにしました。より大きなサイズや少ないトレーニングトークンを持つモデルは、低ビット量子化を適用する際に量子化による劣化(QiD)が少なくなる一方、広範なトレーニングトークンを持つより小さなモデルは著しいQiDを被ります。この傾向をより深く理解するために、異なるサイズとトレーニングレベル(未訓練または完全に訓練された)の1500以上の量子化されたLLMチェックポイントを制御された環境で調査し、トレーニングトークンの数、モデルサイズ、ビット幅などの要因とQiDとの関係を理解するためのスケーリング則を導出します。 導出されたスケーリング則を用いて、LLMのトレーニングレベルを測定し、さまざまなサイズのLLMを完全に訓練するために必要なトレーニングトークンの数を決定するためにQiDを使用できる新しい視点を提案します。さらに、スケーリング則を使用して、100兆トークンで訓練されたさまざまなサイズのLLMの量子化パフォーマンスを予測します。私たちの予測によると、将来のモデルの低ビット量子化パフォーマンスは、100兆トークン以上で訓練されると予想されるモデルにおいては望ましくない可能性があります。これは、将来の低ビット量子化における潜在的な課題を提起し、低ビット量子化研究を評価する際にモデルのトレーニングレベルを認識する必要性を強調しています。この問題に関する将来の研究を促進するために、この作業で使用された1500以上の量子化されたチェックポイントをすべてhttps://huggingface.co/Xu-Ouyangで公開します。
自己回帰モデルは、大規模言語モデル(LLMs)、大規模マルチモーダルモデル(LMMs)、および2Dコンテンツ生成など、さまざまな分野で顕著な成功を収めており、人工汎用知能(AGI)に近づいています。これらの進展にもかかわらず、自己回帰アプローチを3Dオブジェクト生成および理解に適用することはほとんど未開拓です。本論文では、3Dオブジェクトを効率的に自己回帰生成および詳細な理解のためにトークン化する新しいフレームワークであるScale AutoRegressive 3D(SAR3D)を紹介します。SAR3Dは、マルチスケール3Dベクトル量子化変分オートエンコーダ(VQVAE)を活用し、次のスケールを単一トークンではなくマルチスケール潜在表現で予測することで、生成時間を大幅に短縮し、A6000 GPU上でわずか0.82秒で高速な3Dオブジェクト生成を実現します。さらに、階層的な3D認識情報で豊かになったトークンを用いて、事前学習済みLLMを微調整することで、3Dコンテンツのマルチモーダル理解を可能にします。実験の結果、SAR3Dは速度と品質の両面で現行の3D生成手法を凌駕し、LLMsが包括的に3Dモデルを解釈およびキャプション付けできるようにします。
ビジョン言語生成報酬モデル(VL-GenRM)は、多様なAIシステムの整合性を図り評価する上で重要な役割を果たしていますが、その評価自体は未だに充分に探究されていません。現在の評価方法は、主に伝統的なVLタスクからのAI注釈付きの選好ラベルに依存しており、これには偏りをもたらす可能性があり、最先端のモデルに十分な挑戦を与えることができないことがよくあります。これらの制約に対処するために、我々はVL-RewardBenchを導入しました。これは、一般的な多モーダルクエリ、視覚幻覚の検出、および複雑な推論タスクを網羅する包括的なベンチマークです。AI支援の注釈付けパイプラインを通じて、サンプル選択と人間による検証を組み合わせ、モデルの制約を探るために特に設計された1,250の高品質な例を収集しました。16の主要な大規模ビジョン言語モデルにわたる包括的な評価は、VL-RewardBenchが厳しいテストベッドとしての効果を示しており、GPT-4oでさえ65.4%の精度しか達成できず、Qwen2-VL-72Bなどの最先端のオープンソースモデルもランダム推測を上回ることが難しいことが示されています。重要なことは、VL-RewardBenchでのパフォーマンスが、Best-of-Nサンプリングを用いたMMMU-Proの精度と強く相関していること(ピアソンのr > 0.9)です。分析実験により、VL-GenRMを改善するための3つの重要な洞察が明らかになりました:(i)モデルは主に推論タスクではなく基本的な視覚認識タスクで失敗していること、(ii)推論時のスケーリングの利点はモデル容量によって大きく異なること、および(iii)判断を学習させることでVL-GenRMを訓練すると、判断能力が著しく向上すること(7B VL-GenRMで+14.7%の精度向上)。我々は、VL-RewardBenchと実験的洞察が、VL-GenRMの進歩に貴重な資源となると信じています。
大規模多モーダルモデルの進歩にもかかわらず、長時間かつ編集されていないビデオコンテンツにこれらを適用することは、コンテキストの長さや膨大なメモリオーバーヘッドの制約により依然として困難です。これらの制約は、しばしば重要な情報の損失やモデルの応答の関連性の低下につながります。Webプラットフォーム上のビデオデータの指数関数的な成長に伴い、長尺ビデオの理解は汎用知能の進歩にとって重要です。本論文では、SALOVA(Segment-Augmented LOng Video Assistant)を紹介します。これは、長時間ビデオコンテンツの理解を向上させるために設計された新しいビデオ-LLMフレームワークです。これは、ターゲット検索プロセスを通じて長尺ビデオの理解を向上させます。これを実現するために、次の2つの主な課題に取り組んでいます:(i) シーンの連続性を捉え、豊かな記述的コンテキストを維持するために、各々がセグメントレベルで密にキャプションされた87.8Kの長時間ビデオの高品質なコレクションであるSceneWalkデータセットを提供します。(ii) ユーザークエリに基づいて関連するビデオセグメントを効率的に取得および処理するために、ダイナミックルーティングメカニズムと時空間プロジェクタを統合した堅牢なアーキテクチャ設計を開発します。当フレームワークは、クエリに対する関連するビデオセグメントの正確な識別と取得を可能にすることで、現行のビデオ-LMMの制約を緩和し、生成された応答の文脈的関連性を向上させます。幅広い実験を通じて、SALOVAは複雑な長尺ビデオを処理する能力が向上し、長いシーケンス全体で文脈の整合性を維持する能力を示しています。
自己教師付き学習は、未ラベルの3Dポイントクラウドから移転可能な3D表現を獲得するための有望な手法として登場しています。2D画像とは異なり、3Dアセットを取得するには専門知識や専用の3Dスキャン機器が必要であり、スケーリングが困難であり、著作権上の懸念が高まります。これらの課題に対処するために、私たちは、単純なプリミティブと拡張を使用して自動的に3D形状を生成する手続き型3Dプログラムから3D表現を学習することを提案します。 驚くべきことに、この合成データセットから学習された3D表現は、意味的なコンテンツを持たないにもかかわらず、形状分類、部位セグメンテーション、およびマスク付きポイントクラウド補完を含むさまざまな下流3Dタスクにおいて、意味的に認識可能な3Dモデル(例:飛行機)から学習された最先端の表現と同等の性能を発揮します。さらなる分析から、現在の自己教師付き学習手法は、主に高レベルの意味よりも幾何学的構造を主に捉えていることが示唆されます。
大規模なビジョン言語モデル(VLM)の登場により、画像およびビデオのキャプショニング、視覚的な質問応答、クロスモーダル検索を含むさまざまなアプリケーションにおいて、より洗練された正確な推論が可能となり、マルチモーダルタスクが大幅に進化しました。これらの優れた機能にもかかわらず、VLMは微細な画像領域の構成情報認識に苦労しています。具体的には、セグメンテーションマスクを対応する意味と正確に整合させ、参照される領域の構成要素を正確に記述することに難しさを抱えています。 しかしながら、合成性(compositionality)- 既知の視覚的およびテキスト要素の新しい組み合わせを理解し生成する能力- は、VLMによるモーダリティ間の一貫した推論と理解を促進するために重要です。この問題に対処するために、私たちはFINECAPTIONを提案します。これは、異なる粒度レベルで構成画像キャプショニングを行うために高解像度画像を処理し、参照入力として任意のマスクを認識できる新しいVLMです。この取り組みを支援するために、COMPOSITIONCAPを導入します。これは、多粒度領域構成画像キャプショニングのための新しいデータセットであり、構成属性に注意を払った領域画像キャプショニングのタスクを導入します。 経験的な結果は、提案されたモデルが他の最先端のVLMに比べて有効であることを示しています。さらに、現在のVLMの能力を分析し、構成的な領域画像キャプショニングのためのさまざまな視覚的プロンプトを認識する能力を強調し、VLMの設計とトレーニングの改善のための領域を明らかにしています。
アンカースタイルの商品プロモーションビデオの自動生成は、オンライン商取引、広告、および消費者エンゲージメントにおいて有望な機会を提供しています。しかし、ポーズに誘導された人間のビデオ生成の重要な進展にもかかわらず、これは依然として困難な課題です。この課題に取り組む中で、人間と物体の相互作用(HOI)をポーズに誘導された人間のビデオ生成に統合することを中心的な問題として特定します。このために、高い視覚的忠実度と制御可能な相互作用を実現する、対象の人間とカスタマイズされた物体をフィーチャーした2Dビデオを生成するために設計された新しい拡散ベースのシステムであるAnchorCrafterを紹介します。具体的には、任意の多視点からの物体の外観認識を向上させ、物体と人間の外観を分離するHOI-外観知覚と、物体の軌道条件付けや相互遮蔽管理の課題を克服することで複雑な人間と物体の相互作用を可能にするHOI-モーションインジェクションという2つの主要な革新を提案します。さらに、オブジェクトの詳細の学習を向上させるトレーニング目的であるHOI-領域再重み付け損失を導入します。広範な実験により、提案されたシステムが既存の方法よりも物体の外観と形状認識を維持し、同時に人間の外観と動きの一貫性を維持することが示されました。プロジェクトページ:https://cangcz.github.io/Anchor-Crafter/
ニューラルネットワークをリソース制約のある環境に展開するために、これまでの研究では、それぞれ局所的およびグローバルな依存関係を捉えるために畳み込みと注意機構を備えた軽量なアーキテクチャが構築されてきました。最近、状態空間モデルは、トークンの数に対する線形計算コストの点で有利であるため、効果的なグローバルトークン間の相互作用として浮上しています。しかし、SSMを用いた効率的なビジョンバックボーンの研究はまだ少ないです。本論文では、効率的なビジョンマンバ(EfficientViM)という新しいアーキテクチャを紹介します。これは、ヒドゥンステートミキサーに基づく状態空間双対(HSM-SSD)に構築され、さらに計算コストを削減しつつグローバルな依存関係を効率的に捉えます。HSM-SSDレイヤーでは、以前のSSDレイヤーを再設計して、ヒドゥンステート内でのチャネルミキシング操作を可能にします。さらに、マルチステージのヒドゥンステート融合を提案し、ヒドゥンステートの表現力をさらに強化し、メモリバウンドの操作によるボトルネックを緩和する設計を提供します。その結果、EfficientViMファミリーは、ImageNet-1kにおいて新たな最先端の速度と精度のトレードオフを達成し、2番目に優れたモデルSHViTよりも0.7%の性能向上を実現しました。さらに、画像のスケーリングや蒸留トレーニングを行う際に、従来の研究と比較してスループットと精度が大幅に向上することが観察されました。コードはhttps://github.com/mlvlab/EfficientViM で入手可能です。
分子の発見は、私たちが服用する薬から使用する材料まで、あらゆるものに影響を与える重要な研究分野です。最近、大規模言語モデル(LLMs)が分子の理解と生成に広く採用されていますが、分子とそれに対応するキャプションとの整合性は依然として重要な課題です。従来の取り組みでは、分子を一般的なSMILES文字列や分子グラフとして扱い、分子の微細な部分構造と説明的なテキストフレーズとの整合性を無視してきました。これは、正確で説明可能な予測には重要です。この場合、私たちは、分子キャプションとの微細な整合性を文脈的に行うために設計された新しい師弟フレームワークであるMolReFlectを紹介します。私たちのアプローチは、最初により大きな師となるLLMを活用して、分子キャプションやSMILES文字列から重要なフレーズを直接抽出し、それらを対応する部分構造や特性に適用することで、詳細な整合性をラベル付けします。これらの整合性を洗練するために、In-Context Selective Reflectionを提案し、以前の抽出結果を師となるLLMに反映させ、小さな弟となるLLMが文脈反映と以前の抽出結果から選択できるようにします。最後に、Chain-of-Thought In-Context Molecule Tuningを介して、弟となるLLMの学習プロセスを強化し、Chain-of-Thought形式内で微細な整合性と推論プロセスを統合します。私たちの実験結果は、MolReFlectがMistral-7BなどのLLMsを前のベースラインを大幅に上回るようにし、ChEBI-20データセットでSOTAのパフォーマンスを達成することを示しています。この進歩は、分子キャプション翻訳のタスクにおけるLLMsの生成能力を向上させるだけでなく、より説明可能なフレームワークに貢献しています。
私たちは、複数の参照衣料を使用した制御可能な人物画像生成のためのテキストから画像への拡散モデルに基づく画期的なフレームワークであるBootCompを提案します。ここで、主な課題はトレーニング用のデータ取得であり、各人物ごとに高品質な参照衣料画像の大規模データセットを収集することは非常に困難です。つまり、理想的には、各人物が着用したすべての衣料写真を手動で収集する必要があります。この課題に対処するために、我々は、各人物画像から任意の参照衣料画像を抽出するモデルを導入し、人物と複数の衣料のペアからなる大規模な合成データセットを構築するデータ生成パイプラインを提案します。データの品質を確保するために、人物画像に表示される衣料と抽出された衣料との知覚的類似性を測定して、望ましくない生成データを取り除くフィルタリング戦略も提案します。最後に、構築された合成データセットを利用して、微細な詳細を保持しながら、複数の衣料画像を条件として使用する2つの並行したノイズ除去パスを持つ拡散モデルをトレーニングし、人物画像を生成します。さらに、仮想試着を含むファッション領域での異なるタイプの参照ベースの生成に私たちのフレームワークを適応させることで、その広範な適用可能性を示します。 pose、faceなどの他の条件を持つ制御可能な人物画像生成。
画像生成のためのAI技術の普及と、それらの利用がますます容易になっていることから、これらの画像を利用して誤情報を拡散させる可能性について重大な懸念が生じています。最近のAI生成画像検出(AGID)手法には、CNNDetection、NPR、DM Image Detection、Fake Image Detection、DIRE、LASTED、GAN Image Detection、AIDE、SSP、DRCT、RINE、OCC-CLIP、De-Fake、Deep Fake Detectionなどが含まれます。しかし、現在の最先端のAGID技術は、現代のAI生成画像を効果的に検出するには不十分であると主張し、これらの方法の包括的な再評価を提唱しています。私たちは、現代のテキストから画像へのモデル(Stable Diffusion 2.1、Stable Diffusion XL、Stable Diffusion 3、DALL-E 3、Midjourney 6)によって生成された約130,000枚の画像からなるベンチマークであるVisual Counter Turing Test(VCT^2)を導入します。VCT^2には、New York TimesのTwitterアカウントからのツイートとMS COCOデータセットからのキャプションを元にした2つのプロンプトが含まれています。また、上記のAGID技術の性能をVCT^2ベンチマークで評価し、AI生成画像の検出におけるその無力さを強調します。画像生成AIモデルが進化し続ける中、これらのモデルを評価するための数量的なフレームワークの必要性がますます重要になっています。このニーズに応えるために、画像生成AIモデルを評価する新基準を設定する、テクスチャの複雑さやオブジェクトの整合性など、さまざまな視覚的観点から生成された画像を評価するVisual AI Index(V_AI)を提案します。この分野の研究を促進するために、私たちはhttps://huggingface.co/datasets/anonymous1233/COCO_AIとhttps://huggingface.co/datasets/anonymous1233/twitter_AIのデータセットを一般に公開します。