AI研究論文デイリー

翻訳付きの日次キュレーションされたAI研究論文

ShowUI: GUIビジュアルエージェントのための1つのビジョン言語行動モデル
ShowUI: One Vision-Language-Action Model for GUI Visual Agent

Nov 26

ByKevin Qinghong Lin, Linjie Li, Difei Gao, Zhengyuan Yang, Shiwei Wu, Zechen Bai, Weixian Lei, Lijuan Wang, Mike Zheng Shou

グラフィカルユーザーインターフェース（GUI）アシスタントの構築は、人間のワークフロー生産性を向上させるための大きな可能性を秘めています。ほとんどのエージェントは言語ベースであり、テキスト豊富なメタ情報（例：HTMLやアクセシビリティツリー）を持つクローズドソースAPIに依存していますが、人間と同様にUIビジュアルを認識する能力に限界があり、GUIビジュアルエージェントの必要性が浮き彫りになっています。本研究では、デジタル世界においてビジョン-言語-アクションモデルであるShowUIを開発しました。このモデルには以下の革新が特徴として組み込まれています：(i) UIに誘導されたビジュアルトークン選択により、スクリーンショットをUIに接続されたグラフとして定式化し、冗長な関係を適応的に特定し、自己注意ブロック中のトークン選択の基準として機能します；(ii) ビジョン-言語-アクションストリーミングを交互に行うことで、GUIタスク内の多様なニーズを柔軟に統合し、ナビゲーションにおけるビジュアルアクション履歴の効果的な管理を可能にし、各スクリーンショットごとにマルチターンのクエリ-アクションシーケンスをペアリングしてトレーニング効率を向上させます；(iii) 慎重なデータキュレーションと再サンプリング戦略を用いた小規模で高品質なGUI指示従属データセット。これらのコンポーネントを備えたShowUIは、256Kのデータを使用する軽量な2Bモデルで、ゼロショットスクリーンショットグラウンディングにおいて強力な75.1%の精度を達成しています。UIに誘導されたトークン選択は、トレーニング中に冗長なビジュアルトークンの33%を削減し、パフォーマンスを1.4倍高速化しています。Web Mind2Web、モバイルAITW、オンラインMiniWob環境を横断するナビゲーション実験は、当社のモデルの効果と潜在性をさらに強調しています。モデルはhttps://github.com/showlab/ShowUIで入手可能です。

ROICtrl: 視覚生成のためのインスタンス制御の強化
ROICtrl: Boosting Instance Control for Visual Generation

Nov 27

ByYuchao Gu, Yipin Zhou, Yunfan Ye, Yixin Nie, Licheng Yu, Pingchuan Ma, Kevin Qinghong Lin, Mike Zheng Shou

自然言語はしばしば、複数のインスタンスに位置情報や属性情報を正確に関連付けることに苦労し、これにより現在のテキストベースのビジュアル生成モデルは、わずかな支配的なインスタンスのみを備えたより単純な構成に限定されています。この制限に対処するために、本研究では、各インスタンスがバウンディングボックスとフリーフォームのキャプションによって制御される地域インスタンス制御を導入することで、拡散モデルを強化しています。この領域の従来の手法は、通常、暗黙の位置エンコーディングや明示的な注意マスクに依存して、関心領域（ROI）を分離しようとしますが、これにより不正確な座標の注入や大きな計算オーバーヘッドが生じます。物体検出におけるROI-Alignから着想を得て、ROI-Unpoolという補完的な操作を導入します。ROI-AlignとROI-Unpoolを組み合わせることで、視覚生成のための高解像度特徴マップ上での明示的で効率的かつ正確なROI操作が可能となります。ROI-Unpoolを基盤として、事前学習済みの拡散モデルに対して、精密な地域インスタンス制御を可能にするROICtrlを提案します。ROICtrlは、コミュニティによって微調整された拡散モデルと互換性があり、既存の空間ベースのアドオン（例：ControlNet、T2I-Adapter）や埋め込みベースのアドオン（例：IP-Adapter、ED-LoRA）とも互換性があり、これらのアプリケーションをマルチインスタンス生成に拡張します。実験結果は、ROICtrlが地域インスタンス制御において優れた性能を発揮し、計算コストを大幅に削減することを示しています。

画像多様体上の経路：ビデオ生成を通じた画像編集
Pathways on the Image Manifold: Image Editing via Video Generation

Nov 25

ByNoam Rotstein, Gal Yona, Daniel Silver, Roy Velich, David Bensaïd, Ron Kimmel

画像拡散モデルによって推進された画像編集の最近の進歩は、著しい進展を示しています。しかしながら、これらのモデルはしばしば複雑な編集指示に正確に従うことが難しく、元の画像の主要な要素を変更することで忠実度を損なうという重要な課題が残っています。同時に、ビデオ生成は著しい進歩を遂げ、一貫して連続的な世界シミュレーターとして効果的に機能するモデルが登場しています。本論文では、画像編集において画像からビデオへのモデルを利用することで、これら二つの分野を統合することを提案します。我々は画像編集を一連のプロセスとして再定義し、事前学習されたビデオモデルを使用して元の画像から所望の編集への滑らかな遷移を作成します。このアプローチは画像多様体を連続的に移動し、元の画像の主要な側面を保持しながら一貫した編集を確保します。我々のアプローチは、テキストベースの画像編集において最先端の結果を達成し、編集の正確さと画像の保存の両方で著しい改善を示しています。

周波数分解によるアイデンティティを保持したテキストからビデオへの生成
Identity-Preserving Text-to-Video Generation by Frequency Decomposition

Nov 26

ByShenghai Yuan, Jinfa Huang, Xianyi He, Yunyuan Ge, Yujun Shi, Liuhan Chen, Jiebo Luo, Li Yuan

アイデンティティを保持するテキストからビデオ（IPT2V）生成は、一貫した人間のアイデンティティを持つ高品質なビデオを作成することを目指しています。これはビデオ生成における重要な課題であり、生成モデルにとって未解決の問題です。本論文は、文献において未解決の2つの方向においてIPT2Vの技術的フロンティアを押し進めます：（1）煩雑なケースごとの微調整を必要としないチューニングフリーのパイプライン、および（2）周波数に敏感なヒューリスティックなアイデンティティ保持DiTベースの制御スキーム。私たちはConsisIDを提案します。これは、人間のアイデンティティを生成されたビデオで一貫させるためのチューニングフリーなDiTベースのコントロール可能なIPT2Vモデルです。拡散トランスフォーマーの周波数分析における先行研究に触発され、このモデルは顔の特徴を低周波数のグローバル特徴と高周波数の固有特徴に分解できる周波数領域でアイデンティティ制御信号を使用します。低周波数の観点から、参照画像と顔のキーポイントを潜在空間にエンコードするグローバルな顔抽出器を導入し、低周波数情報が豊富な特徴を生成します。これらの特徴は、DiTに関連するトレーニングの課題を軽減するためにネットワークの浅い層に統合されます。高周波数の観点から、高周波数の詳細を捉えるローカルな顔抽出器を設計し、これをトランスフォーマーブロックに注入することで、モデルが微細な特徴を保持する能力を向上させます。周波数情報を活用した階層的なトレーニング戦略を提案し、バニラの事前トレーニングされたビデオ生成モデルをIPT2Vモデルに変換し、アイデンティティを保持します。幅広い実験により、周波数に敏感なヒューリスティックなスキームがDiTベースのモデルに最適な制御ソリューションを提供することが示されました。このスキームのおかげで、ConsisIDは高品質でアイデンティティを保持するビデオを生成し、より効果的なIPT2Vに向けて大きな進歩を遂げています。

MME-Survey: マルチモーダルLLMの評価に関する包括的調査
MME-Survey: A Comprehensive Survey on Evaluation of Multimodal LLMs

Nov 22

ByChaoyou Fu, Yi-Fan Zhang, Shukang Yin, Bo Li, Xinyu Fang, Sirui Zhao, Haodong Duan, Xing Sun, Ziwei Liu, Liang Wang, Caifeng Shan, Ran He

人工一般知能（AGI）の主要な方向性として、多様なモーダルを持つ大規模言語モデル（MLLMs）が産業界と学術界の両方から注目を集めています。事前学習済みのLLMsを基盤として構築されたこのモデルファミリーは、流れ図からコードを作成したり、画像に基づいて物語を作成するなど、印象的な多様な知覚と推論能力をさらに発展させています。開発プロセスにおいて、モデルの改善に対する直感的なフィードバックとガイダンスを提供するため、評価は重要です。従来の画像分類など単一のタスクに偏った訓練-評価-テストのパラダイムとは異なり、MLLMsの汎用性はさまざまな新しいベンチマークと評価手法の台頭を促しています。本論文では、MLLMの評価に関する包括的な調査を行い、以下の4つの主要な側面について論じます：1）評価能力によって分類された要約されたベンチマークの種類、基本的な能力、モデルの自己分析、拡張アプリケーションを含む；2）データ収集、注釈、および注意事項から構成されるベンチマークの典型的な構築プロセス；3）判断、尺度、ツールキットから構成される体系的な評価方法；4）次のベンチマークへの展望。この研究は、研究者が異なるニーズに応じてMLLMsを効果的に評価する方法を簡単に把握し、より良い評価方法をインスピレーションとして提供し、MLLM研究の進歩を促進することを目的としています。

交互に配置されたシーングラフによる交互のテキストと画像の生成の評価
Interleaved Scene Graph for Interleaved Text-and-Image Generation Assessment

Nov 26

ByDongping Chen, Ruoxi Chen, Shu Pu, Zhaoyi Liu, Yanru Wu, Caixi Chen, Benlin Liu, Yue Huang, Yao Wan, Pan Zhou, Ranjay Krishna

多くの実世界のユーザークエリ（例：「卵チャーハンの作り方は？」）は、料理本のように、テキスト手順とそれに付随する画像を生成するシステムの恩恵を受ける可能性があります。交互にテキストと画像を生成するモデルは、これらのモダリティ内および間での一貫性を確保する際に課題に直面します。これらの課題に対処するために、交互にテキストと画像を生成するための包括的な評価フレームワークであるISGを提案します。ISGは、テキストと画像ブロック間の関係を捉えるためにシーングラフ構造を活用し、全体的、構造的、ブロックレベル、画像固有の4つの粒度レベルで応答を評価します。この多層評価により、一貫性、結合性、および正確性の微妙な評価が可能となり、解釈可能な質問回答フィードバックを提供します。ISGと併せて、8つのカテゴリと21のサブカテゴリにまたがる1,150のサンプルを含むISG-Benchというベンチマークを紹介します。このベンチマークデータセットには、複雑な言語ビジョン依存関係とヴィジョン中心のタスクであるスタイル変換などを効果的に評価するためのゴールデンアンサーが含まれています。ISG-Benchを使用して、最近の統合ビジョン言語モデルが交互コンテンツを生成する際に性能が低いことを示します。統合モデルよりも別々の言語と画像モデルを組み合わせる構成的アプローチは、全体レベルで統合モデルよりも111%の改善を示しますが、ブロックおよび画像レベルでのパフォーマンスは依然として最適ではありません。将来の研究を促進するために、「計画-実行-改善」パイプラインを用いたISG-Agentというベースラインエージェントを開発し、ツールを呼び出して122%の性能向上を達成します。

SketchAgent: 言語駆動シーケンシャルスケッチ生成
SketchAgent: Language-Driven Sequential Sketch Generation

Nov 26

ByYael Vinker, Tamar Rott Shaham, Kristine Zheng, Alex Zhao, Judith E Fan, Antonio Torralba

スケッチは、アイデアを具体化し、さまざまな分野にわたる迅速な探索とビジュアルコミュニケーションを可能にする多目的ツールとして機能します。人工システムはコンテンツ作成や人間とコンピュータのインタラクションにおいて大きな進歩を遂げてきましたが、人間のスケッチの動的で抽象的な性質を捉えることは依然として難しい課題です。本研究では、ユーザーが動的で対話的なやり取りを通じてスケッチを作成、修正、洗練させることができる、言語駆動型の連続スケッチ生成手法であるSketchAgentを紹介します。当手法はトレーニングや微調整を必要としません。代わりに、市販のマルチモーダル大規模言語モデル（LLM）の連続的な性質と豊富な事前知識を活用します。モデルに導入される直感的なスケッチ言語は、コンテキスト内の例を通じて導入され、文字列ベースのアクションを使用して「描く」ことができるようになります。これらはベクトルグラフィックに変換され、その後、ピクセルキャンバス上にスケッチを作成するためにレンダリングされます。その後、さらなるタスクのために再度アクセスできます。ストロークごとに描画することで、当エージェントはスケッチに固有の進化する動的な特性を捉えます。SketchAgentは多様なプロンプトからスケッチを生成し、対話に基づいた描画を行い、人間のユーザーと意味のある協力関係を築くことができることを示しています。

MLLMにおけるトークン削減の再考：トレーニングフリーの加速のための統一されたパラダイムに向けて
Rethinking Token Reduction in MLLMs: Towards a Unified Paradigm for Training-Free Acceleration

Nov 26

ByYuhang Han, Xuyang Liu, Pengxiang Ding, Donglin Wang, Honggang Chen, Qingsen Yan, Siteng Huang

重いMultimodal Large Language Models（MLLMs）の推論を加速するために、この研究はトレーニング不要のトークン削減研究の現在の状況を見直しました。既存の手法の重要な部分が密接に絡み合っており、その相互関係や効果が比較、転送、拡張のためにはっきりとしておらず、残念に思っています。そのため、私たちはトークン削減をパイプライン内の3つの異なる段階に分解する統一された「フィルター-相関-圧縮」パラダイムを提案します。このパラダイムは一貫した設計目標と要素を維持しながら、独自の実装を可能にします。さらに、一般的な作品を解明し、その普遍性を示すためにそれらをパラダイムに包含します。最後に、推論のさまざまな段階で速度と精度のバランスを保ちつつ、パラダイムに基づいた一連の手法を提供します。10のベンチマークを通じた実験結果は、私たちの手法がFLOPsを最大82.4%削減し、パフォーマンスにほとんど影響を与えず、同時に最先端のトレーニング不要の手法を凌駕していることを示しています。私たちのプロジェクトページはhttps://ficoco-accelerate.github.io/ にあります。

低ビット量子化は未訓練のLLMを好む：100兆のトレーニングトークンを持つ量子化されたLLMのスケーリング則
Low-Bit Quantization Favors Undertrained LLMs: Scaling Laws for Quantized LLMs with 100T Training Tokens

Nov 26

ByXu Ouyang, Tao Ge, Thomas Hartvigsen, Zhisong Zhang, Haitao Mi, Dong Yu

低ビット量子化は、大規模な未訓練の大規模言語モデル（LLM）に有利であることを明らかにしました。より大きなサイズや少ないトレーニングトークンを持つモデルは、低ビット量子化を適用する際に量子化による劣化（QiD）が少なくなる一方、広範なトレーニングトークンを持つより小さなモデルは著しいQiDを被ります。この傾向をより深く理解するために、異なるサイズとトレーニングレベル（未訓練または完全に訓練された）の1500以上の量子化されたLLMチェックポイントを制御された環境で調査し、トレーニングトークンの数、モデルサイズ、ビット幅などの要因とQiDとの関係を理解するためのスケーリング則を導出します。導出されたスケーリング則を用いて、LLMのトレーニングレベルを測定し、さまざまなサイズのLLMを完全に訓練するために必要なトレーニングトークンの数を決定するためにQiDを使用できる新しい視点を提案します。さらに、スケーリング則を使用して、100兆トークンで訓練されたさまざまなサイズのLLMの量子化パフォーマンスを予測します。私たちの予測によると、将来のモデルの低ビット量子化パフォーマンスは、100兆トークン以上で訓練されると予想されるモデルにおいては望ましくない可能性があります。これは、将来の低ビット量子化における潜在的な課題を提起し、低ビット量子化研究を評価する際にモデルのトレーニングレベルを認識する必要性を強調しています。この問題に関する将来の研究を促進するために、この作業で使用された1500以上の量子化されたチェックポイントをすべてhttps://huggingface.co/Xu-Ouyangで公開します。

SAR3D：多スケール3D VQVAEを介した自己回帰型3Dオブジェクト生成と理解
SAR3D: Autoregressive 3D Object Generation and Understanding via Multi-scale 3D VQVAE

Nov 25

ByYongwei Chen, Yushi Lan, Shangchen Zhou, Tengfei Wang, XIngang Pan

自己回帰モデルは、大規模言語モデル（LLMs）、大規模マルチモーダルモデル（LMMs）、および2Dコンテンツ生成など、さまざまな分野で顕著な成功を収めており、人工汎用知能（AGI）に近づいています。これらの進展にもかかわらず、自己回帰アプローチを3Dオブジェクト生成および理解に適用することはほとんど未開拓です。本論文では、3Dオブジェクトを効率的に自己回帰生成および詳細な理解のためにトークン化する新しいフレームワークであるScale AutoRegressive 3D（SAR3D）を紹介します。SAR3Dは、マルチスケール3Dベクトル量子化変分オートエンコーダ（VQVAE）を活用し、次のスケールを単一トークンではなくマルチスケール潜在表現で予測することで、生成時間を大幅に短縮し、A6000 GPU上でわずか0.82秒で高速な3Dオブジェクト生成を実現します。さらに、階層的な3D認識情報で豊かになったトークンを用いて、事前学習済みLLMを微調整することで、3Dコンテンツのマルチモーダル理解を可能にします。実験の結果、SAR3Dは速度と品質の両面で現行の3D生成手法を凌駕し、LLMsが包括的に3Dモデルを解釈およびキャプション付けできるようにします。

VLRewardBench: ビジョン-言語生成報酬モデルのための厳しいベンチマーク
VLRewardBench: A Challenging Benchmark for Vision-Language Generative Reward Models

Nov 26

ByLei Li, Yuancheng Wei, Zhihui Xie, Xuqing Yang, Yifan Song, Peiyi Wang, Chenxin An, Tianyu Liu, Sujian Li, Bill Yuchen Lin, Lingpeng Kong, Qi Liu

ビジョン言語生成報酬モデル（VL-GenRM）は、多様なAIシステムの整合性を図り評価する上で重要な役割を果たしていますが、その評価自体は未だに充分に探究されていません。現在の評価方法は、主に伝統的なVLタスクからのAI注釈付きの選好ラベルに依存しており、これには偏りをもたらす可能性があり、最先端のモデルに十分な挑戦を与えることができないことがよくあります。これらの制約に対処するために、我々はVL-RewardBenchを導入しました。これは、一般的な多モーダルクエリ、視覚幻覚の検出、および複雑な推論タスクを網羅する包括的なベンチマークです。AI支援の注釈付けパイプラインを通じて、サンプル選択と人間による検証を組み合わせ、モデルの制約を探るために特に設計された1,250の高品質な例を収集しました。16の主要な大規模ビジョン言語モデルにわたる包括的な評価は、VL-RewardBenchが厳しいテストベッドとしての効果を示しており、GPT-4oでさえ65.4％の精度しか達成できず、Qwen2-VL-72Bなどの最先端のオープンソースモデルもランダム推測を上回ることが難しいことが示されています。重要なことは、VL-RewardBenchでのパフォーマンスが、Best-of-Nサンプリングを用いたMMMU-Proの精度と強く相関していること（ピアソンのr > 0.9）です。分析実験により、VL-GenRMを改善するための3つの重要な洞察が明らかになりました：（i）モデルは主に推論タスクではなく基本的な視覚認識タスクで失敗していること、（ii）推論時のスケーリングの利点はモデル容量によって大きく異なること、および（iii）判断を学習させることでVL-GenRMを訓練すると、判断能力が著しく向上すること（7B VL-GenRMで+14.7％の精度向上）。我々は、VL-RewardBenchと実験的洞察が、VL-GenRMの進歩に貴重な資源となると信じています。

手続き型3Dプログラムから3D表現を学習する
Learning 3D Representations from Procedural 3D Programs

Nov 25

ByXuweiyi Chen, Zezhou Cheng

自己教師付き学習は、未ラベルの3Dポイントクラウドから移転可能な3D表現を獲得するための有望な手法として登場しています。2D画像とは異なり、3Dアセットを取得するには専門知識や専用の3Dスキャン機器が必要であり、スケーリングが困難であり、著作権上の懸念が高まります。これらの課題に対処するために、私たちは、単純なプリミティブと拡張を使用して自動的に3D形状を生成する手続き型3Dプログラムから3D表現を学習することを提案します。驚くべきことに、この合成データセットから学習された3D表現は、意味的なコンテンツを持たないにもかかわらず、形状分類、部位セグメンテーション、およびマスク付きポイントクラウド補完を含むさまざまな下流3Dタスクにおいて、意味的に認識可能な3Dモデル（例：飛行機）から学習された最先端の表現と同等の性能を発揮します。さらなる分析から、現在の自己教師付き学習手法は、主に高レベルの意味よりも幾何学的構造を主に捉えていることが示唆されます。

SALOVA: 長尺ビデオ解析におけるターゲット検索とルーティングのためのセグメント増強型長尺ビデオアシスタント
SALOVA: Segment-Augmented Long Video Assistant for Targeted Retrieval and Routing in Long-Form Video Analysis

Nov 25

ByJunho Kim, Hyunjun Kim, Hosu Lee, Yong Man Ro

大規模多モーダルモデルの進歩にもかかわらず、長時間かつ編集されていないビデオコンテンツにこれらを適用することは、コンテキストの長さや膨大なメモリオーバーヘッドの制約により依然として困難です。これらの制約は、しばしば重要な情報の損失やモデルの応答の関連性の低下につながります。Webプラットフォーム上のビデオデータの指数関数的な成長に伴い、長尺ビデオの理解は汎用知能の進歩にとって重要です。本論文では、SALOVA（Segment-Augmented LOng Video Assistant）を紹介します。これは、長時間ビデオコンテンツの理解を向上させるために設計された新しいビデオ-LLMフレームワークです。これは、ターゲット検索プロセスを通じて長尺ビデオの理解を向上させます。これを実現するために、次の2つの主な課題に取り組んでいます：(i) シーンの連続性を捉え、豊かな記述的コンテキストを維持するために、各々がセグメントレベルで密にキャプションされた87.8Kの長時間ビデオの高品質なコレクションであるSceneWalkデータセットを提供します。(ii) ユーザークエリに基づいて関連するビデオセグメントを効率的に取得および処理するために、ダイナミックルーティングメカニズムと時空間プロジェクタを統合した堅牢なアーキテクチャ設計を開発します。当フレームワークは、クエリに対する関連するビデオセグメントの正確な識別と取得を可能にすることで、現行のビデオ-LMMの制約を緩和し、生成された応答の文脈的関連性を向上させます。幅広い実験を通じて、SALOVAは複雑な長尺ビデオを処理する能力が向上し、長いシーケンス全体で文脈の整合性を維持する能力を示しています。

FINECAPTION：どこでも好きな粒度で焦点を合わせた構成画像キャプショニング
FINECAPTION: Compositional Image Captioning Focusing on Wherever You Want at Any Granularity

Nov 23

ByHang Hua, Qing Liu, Lingzhi Zhang, Jing Shi, Zhifei Zhang, Yilin Wang, Jianming Zhang, Jiebo Luo

大規模なビジョン言語モデル（VLM）の登場により、画像およびビデオのキャプショニング、視覚的な質問応答、クロスモーダル検索を含むさまざまなアプリケーションにおいて、より洗練された正確な推論が可能となり、マルチモーダルタスクが大幅に進化しました。これらの優れた機能にもかかわらず、VLMは微細な画像領域の構成情報認識に苦労しています。具体的には、セグメンテーションマスクを対応する意味と正確に整合させ、参照される領域の構成要素を正確に記述することに難しさを抱えています。しかしながら、合成性（compositionality）- 既知の視覚的およびテキスト要素の新しい組み合わせを理解し生成する能力- は、VLMによるモーダリティ間の一貫した推論と理解を促進するために重要です。この問題に対処するために、私たちはFINECAPTIONを提案します。これは、異なる粒度レベルで構成画像キャプショニングを行うために高解像度画像を処理し、参照入力として任意のマスクを認識できる新しいVLMです。この取り組みを支援するために、COMPOSITIONCAPを導入します。これは、多粒度領域構成画像キャプショニングのための新しいデータセットであり、構成属性に注意を払った領域画像キャプショニングのタスクを導入します。経験的な結果は、提案されたモデルが他の最先端のVLMに比べて有効であることを示しています。さらに、現在のVLMの能力を分析し、構成的な領域画像キャプショニングのためのさまざまな視覚的プロンプトを認識する能力を強調し、VLMの設計とトレーニングの改善のための領域を明らかにしています。

AnchorCrafter: 人間と物体が相互作用するビデオ生成を通じて製品を販売するためのサイバーアンカーをアニメーション化します
AnchorCrafter: Animate CyberAnchors Saling Your Products via Human-Object Interacting Video Generation

Nov 26

ByZiyi Xu, Ziyao Huang, Juan Cao, Yong Zhang, Xiaodong Cun, Qing Shuai, Yuchen Wang, Linchao Bao, Jintao Li, Fan Tang

アンカースタイルの商品プロモーションビデオの自動生成は、オンライン商取引、広告、および消費者エンゲージメントにおいて有望な機会を提供しています。しかし、ポーズに誘導された人間のビデオ生成の重要な進展にもかかわらず、これは依然として困難な課題です。この課題に取り組む中で、人間と物体の相互作用（HOI）をポーズに誘導された人間のビデオ生成に統合することを中心的な問題として特定します。このために、高い視覚的忠実度と制御可能な相互作用を実現する、対象の人間とカスタマイズされた物体をフィーチャーした2Dビデオを生成するために設計された新しい拡散ベースのシステムであるAnchorCrafterを紹介します。具体的には、任意の多視点からの物体の外観認識を向上させ、物体と人間の外観を分離するHOI-外観知覚と、物体の軌道条件付けや相互遮蔽管理の課題を克服することで複雑な人間と物体の相互作用を可能にするHOI-モーションインジェクションという2つの主要な革新を提案します。さらに、オブジェクトの詳細の学習を向上させるトレーニング目的であるHOI-領域再重み付け損失を導入します。広範な実験により、提案されたシステムが既存の方法よりも物体の外観と形状認識を維持し、同時に人間の外観と動きの一貫性を維持することが示されました。プロジェクトページ：https://cangcz.github.io/Anchor-Crafter/

EfficientViM: 隠れ状態ミキサーに基づく状態空間双対を持つ効率的ビジョンマンバ
EfficientViM: Efficient Vision Mamba with Hidden State Mixer based State Space Duality

Nov 22

BySanghyeok Lee, Joonmyung Choi, Hyunwoo J. Kim

ニューラルネットワークをリソース制約のある環境に展開するために、これまでの研究では、それぞれ局所的およびグローバルな依存関係を捉えるために畳み込みと注意機構を備えた軽量なアーキテクチャが構築されてきました。最近、状態空間モデルは、トークンの数に対する線形計算コストの点で有利であるため、効果的なグローバルトークン間の相互作用として浮上しています。しかし、SSMを用いた効率的なビジョンバックボーンの研究はまだ少ないです。本論文では、効率的なビジョンマンバ（EfficientViM）という新しいアーキテクチャを紹介します。これは、ヒドゥンステートミキサーに基づく状態空間双対（HSM-SSD）に構築され、さらに計算コストを削減しつつグローバルな依存関係を効率的に捉えます。HSM-SSDレイヤーでは、以前のSSDレイヤーを再設計して、ヒドゥンステート内でのチャネルミキシング操作を可能にします。さらに、マルチステージのヒドゥンステート融合を提案し、ヒドゥンステートの表現力をさらに強化し、メモリバウンドの操作によるボトルネックを緩和する設計を提供します。その結果、EfficientViMファミリーは、ImageNet-1kにおいて新たな最先端の速度と精度のトレードオフを達成し、2番目に優れたモデルSHViTよりも0.7%の性能向上を実現しました。さらに、画像のスケーリングや蒸留トレーニングを行う際に、従来の研究と比較してスループットと精度が大幅に向上することが観察されました。コードはhttps://github.com/mlvlab/EfficientViM で入手可能です。

MolReFlect: 分子とテキスト間の文脈に即した微細なアラインメントに向けて
MolReFlect: Towards In-Context Fine-grained Alignments between Molecules and Texts

Nov 22

ByJiatong Li, Yunqing Liu, Wei Liu, Jingdi Le, Di Zhang, Wenqi Fan, Dongzhan Zhou, Yuqiang Li, Qing Li

分子の発見は、私たちが服用する薬から使用する材料まで、あらゆるものに影響を与える重要な研究分野です。最近、大規模言語モデル（LLMs）が分子の理解と生成に広く採用されていますが、分子とそれに対応するキャプションとの整合性は依然として重要な課題です。従来の取り組みでは、分子を一般的なSMILES文字列や分子グラフとして扱い、分子の微細な部分構造と説明的なテキストフレーズとの整合性を無視してきました。これは、正確で説明可能な予測には重要です。この場合、私たちは、分子キャプションとの微細な整合性を文脈的に行うために設計された新しい師弟フレームワークであるMolReFlectを紹介します。私たちのアプローチは、最初により大きな師となるLLMを活用して、分子キャプションやSMILES文字列から重要なフレーズを直接抽出し、それらを対応する部分構造や特性に適用することで、詳細な整合性をラベル付けします。これらの整合性を洗練するために、In-Context Selective Reflectionを提案し、以前の抽出結果を師となるLLMに反映させ、小さな弟となるLLMが文脈反映と以前の抽出結果から選択できるようにします。最後に、Chain-of-Thought In-Context Molecule Tuningを介して、弟となるLLMの学習プロセスを強化し、Chain-of-Thought形式内で微細な整合性と推論プロセスを統合します。私たちの実験結果は、MolReFlectがMistral-7BなどのLLMsを前のベースラインを大幅に上回るようにし、ChEBI-20データセットでSOTAのパフォーマンスを達成することを示しています。この進歩は、分子キャプション翻訳のタスクにおけるLLMsの生成能力を向上させるだけでなく、より説明可能なフレームワークに貢献しています。

ビジュアル・カウンター・チューリング・テスト（VCT^2）：AI生成画像検出の課題の発見とビジュアルAI指標（V_AI）の導入
Visual Counter Turing Test (VCT^2): Discovering the Challenges for AI-Generated Image Detection and Introducing Visual AI Index (V_AI)

Nov 24

ByNasrin Imanpour, Shashwat Bajpai, Subhankar Ghosh, Sainath Reddy Sankepally, Abhilekh Borah, Hasnat Md Abdullah, Nishoak Kosaraju, Shreyas Dixit, Ashhar Aziz, Shwetangshu Biswas, Vinija Jain, Aman Chadha, Amit Sheth, Amitava Das

画像生成のためのAI技術の普及と、それらの利用がますます容易になっていることから、これらの画像を利用して誤情報を拡散させる可能性について重大な懸念が生じています。最近のAI生成画像検出（AGID）手法には、CNNDetection、NPR、DM Image Detection、Fake Image Detection、DIRE、LASTED、GAN Image Detection、AIDE、SSP、DRCT、RINE、OCC-CLIP、De-Fake、Deep Fake Detectionなどが含まれます。しかし、現在の最先端のAGID技術は、現代のAI生成画像を効果的に検出するには不十分であると主張し、これらの方法の包括的な再評価を提唱しています。私たちは、現代のテキストから画像へのモデル（Stable Diffusion 2.1、Stable Diffusion XL、Stable Diffusion 3、DALL-E 3、Midjourney 6）によって生成された約130,000枚の画像からなるベンチマークであるVisual Counter Turing Test（VCT^2）を導入します。VCT^2には、New York TimesのTwitterアカウントからのツイートとMS COCOデータセットからのキャプションを元にした2つのプロンプトが含まれています。また、上記のAGID技術の性能をVCT^2ベンチマークで評価し、AI生成画像の検出におけるその無力さを強調します。画像生成AIモデルが進化し続ける中、これらのモデルを評価するための数量的なフレームワークの必要性がますます重要になっています。このニーズに応えるために、画像生成AIモデルを評価する新基準を設定する、テクスチャの複雑さやオブジェクトの整合性など、さまざまな視覚的観点から生成された画像を評価するVisual AI Index（V_AI）を提案します。この分野の研究を促進するために、私たちはhttps://huggingface.co/datasets/anonymous1233/COCO_AIとhttps://huggingface.co/datasets/anonymous1233/twitter_AIのデータセットを一般に公開します。

パーソナライズされたマルチガーメントを用いた制御可能な人物画像生成
Controllable Human Image Generation with Personalized Multi-Garments

Nov 25

ByYisol Choi, Sangkyung Kwak, Sihyun Yu, Hyungwon Choi, Jinwoo Shin

私たちは、複数の参照衣料を使用した制御可能な人物画像生成のためのテキストから画像への拡散モデルに基づく画期的なフレームワークであるBootCompを提案します。ここで、主な課題はトレーニング用のデータ取得であり、各人物ごとに高品質な参照衣料画像の大規模データセットを収集することは非常に困難です。つまり、理想的には、各人物が着用したすべての衣料写真を手動で収集する必要があります。この課題に対処するために、我々は、各人物画像から任意の参照衣料画像を抽出するモデルを導入し、人物と複数の衣料のペアからなる大規模な合成データセットを構築するデータ生成パイプラインを提案します。データの品質を確保するために、人物画像に表示される衣料と抽出された衣料との知覚的類似性を測定して、望ましくない生成データを取り除くフィルタリング戦略も提案します。最後に、構築された合成データセットを利用して、微細な詳細を保持しながら、複数の衣料画像を条件として使用する2つの並行したノイズ除去パスを持つ拡散モデルをトレーニングし、人物画像を生成します。さらに、仮想試着を含むファッション領域での異なるタイプの参照ベースの生成に私たちのフレームワークを適応させることで、その広範な適用可能性を示します。 pose、faceなどの他の条件を持つ制御可能な人物画像生成。

AI研究論文デイリー

翻訳付きの日次キュレーションされたAI研究論文

ShowUI: GUIビジュアルエージェントのための1つのビジョン言語行動モデル
ShowUI: One Vision-Language-Action Model for GUI Visual Agent

Nov 26

ByKevin Qinghong Lin, Linjie Li, Difei Gao, Zhengyuan Yang, Shiwei Wu, Zechen Bai, Weixian Lei, Lijuan Wang, Mike Zheng Shou

ROICtrl: 視覚生成のためのインスタンス制御の強化
ROICtrl: Boosting Instance Control for Visual Generation

Nov 27

ByYuchao Gu, Yipin Zhou, Yunfan Ye, Yixin Nie, Licheng Yu, Pingchuan Ma, Kevin Qinghong Lin, Mike Zheng Shou

画像多様体上の経路：ビデオ生成を通じた画像編集
Pathways on the Image Manifold: Image Editing via Video Generation

Nov 25

ByNoam Rotstein, Gal Yona, Daniel Silver, Roy Velich, David Bensaïd, Ron Kimmel

周波数分解によるアイデンティティを保持したテキストからビデオへの生成
Identity-Preserving Text-to-Video Generation by Frequency Decomposition

Nov 26

ByShenghai Yuan, Jinfa Huang, Xianyi He, Yunyuan Ge, Yujun Shi, Liuhan Chen, Jiebo Luo, Li Yuan

MME-Survey: マルチモーダルLLMの評価に関する包括的調査
MME-Survey: A Comprehensive Survey on Evaluation of Multimodal LLMs

Nov 22

ByChaoyou Fu, Yi-Fan Zhang, Shukang Yin, Bo Li, Xinyu Fang, Sirui Zhao, Haodong Duan, Xing Sun, Ziwei Liu, Liang Wang, Caifeng Shan, Ran He

交互に配置されたシーングラフによる交互のテキストと画像の生成の評価
Interleaved Scene Graph for Interleaved Text-and-Image Generation Assessment

Nov 26

ByDongping Chen, Ruoxi Chen, Shu Pu, Zhaoyi Liu, Yanru Wu, Caixi Chen, Benlin Liu, Yue Huang, Yao Wan, Pan Zhou, Ranjay Krishna

SketchAgent: 言語駆動シーケンシャルスケッチ生成
SketchAgent: Language-Driven Sequential Sketch Generation

Nov 26

ByYael Vinker, Tamar Rott Shaham, Kristine Zheng, Alex Zhao, Judith E Fan, Antonio Torralba

MLLMにおけるトークン削減の再考：トレーニングフリーの加速のための統一されたパラダイムに向けて
Rethinking Token Reduction in MLLMs: Towards a Unified Paradigm for Training-Free Acceleration

Nov 26

ByYuhang Han, Xuyang Liu, Pengxiang Ding, Donglin Wang, Honggang Chen, Qingsen Yan, Siteng Huang

低ビット量子化は未訓練のLLMを好む：100兆のトレーニングトークンを持つ量子化されたLLMのスケーリング則
Low-Bit Quantization Favors Undertrained LLMs: Scaling Laws for Quantized LLMs with 100T Training Tokens

Nov 26

ByXu Ouyang, Tao Ge, Thomas Hartvigsen, Zhisong Zhang, Haitao Mi, Dong Yu

SAR3D：多スケール3D VQVAEを介した自己回帰型3Dオブジェクト生成と理解
SAR3D: Autoregressive 3D Object Generation and Understanding via Multi-scale 3D VQVAE

Nov 25

ByYongwei Chen, Yushi Lan, Shangchen Zhou, Tengfei Wang, XIngang Pan

VLRewardBench: ビジョン-言語生成報酬モデルのための厳しいベンチマーク
VLRewardBench: A Challenging Benchmark for Vision-Language Generative Reward Models

Nov 26

ByLei Li, Yuancheng Wei, Zhihui Xie, Xuqing Yang, Yifan Song, Peiyi Wang, Chenxin An, Tianyu Liu, Sujian Li, Bill Yuchen Lin, Lingpeng Kong, Qi Liu

手続き型3Dプログラムから3D表現を学習する
Learning 3D Representations from Procedural 3D Programs

Nov 25

ByXuweiyi Chen, Zezhou Cheng

SALOVA: 長尺ビデオ解析におけるターゲット検索とルーティングのためのセグメント増強型長尺ビデオアシスタント
SALOVA: Segment-Augmented Long Video Assistant for Targeted Retrieval and Routing in Long-Form Video Analysis

Nov 25

ByJunho Kim, Hyunjun Kim, Hosu Lee, Yong Man Ro

FINECAPTION：どこでも好きな粒度で焦点を合わせた構成画像キャプショニング
FINECAPTION: Compositional Image Captioning Focusing on Wherever You Want at Any Granularity

Nov 23

ByHang Hua, Qing Liu, Lingzhi Zhang, Jing Shi, Zhifei Zhang, Yilin Wang, Jianming Zhang, Jiebo Luo

AnchorCrafter: 人間と物体が相互作用するビデオ生成を通じて製品を販売するためのサイバーアンカーをアニメーション化します
AnchorCrafter: Animate CyberAnchors Saling Your Products via Human-Object Interacting Video Generation

Nov 26

ByZiyi Xu, Ziyao Huang, Juan Cao, Yong Zhang, Xiaodong Cun, Qing Shuai, Yuchen Wang, Linchao Bao, Jintao Li, Fan Tang

EfficientViM: 隠れ状態ミキサーに基づく状態空間双対を持つ効率的ビジョンマンバ
EfficientViM: Efficient Vision Mamba with Hidden State Mixer based State Space Duality

Nov 22

BySanghyeok Lee, Joonmyung Choi, Hyunwoo J. Kim

MolReFlect: 分子とテキスト間の文脈に即した微細なアラインメントに向けて
MolReFlect: Towards In-Context Fine-grained Alignments between Molecules and Texts

Nov 22

ByJiatong Li, Yunqing Liu, Wei Liu, Jingdi Le, Di Zhang, Wenqi Fan, Dongzhan Zhou, Yuqiang Li, Qing Li

ビジュアル・カウンター・チューリング・テスト（VCT^2）：AI生成画像検出の課題の発見とビジュアルAI指標（V_AI）の導入
Visual Counter Turing Test (VCT^2): Discovering the Challenges for AI-Generated Image Detection and Introducing Visual AI Index (V_AI)

Nov 24

パーソナライズされたマルチガーメントを用いた制御可能な人物画像生成
Controllable Human Image Generation with Personalized Multi-Garments

Nov 25

ByYisol Choi, Sangkyung Kwak, Sihyun Yu, Hyungwon Choi, Jinwoo Shin