AI研究論文デイリー

翻訳付きの日次キュレーションされたAI研究論文

アポロ：大規模なマルチモーダルモデルにおけるビデオ理解の探求
Apollo: An Exploration of Video Understanding in Large Multimodal Models

Dec 13

ByOrr Zohar, Xiaohan Wang, Yann Dubois, Nikhil Mehta, Tong Xiao, Philippe Hansen-Estruch, Licheng Yu, Xiaofang Wang, Felix Juefei-Xu, Ning Zhang, Serena Yeung-Levy, Xide Xia

147

ビデオ認識能力が大規模多モーダルモデル（LMMs）に急速に統合されているにもかかわらず、それらのビデオ理解を駆動する基本的なメカニズムは依然として不明確です。その結果、この分野での多くの設計上の決定は適切な根拠や分析なしに行われています。このようなモデルの訓練および評価の高い計算コストと、限られたオープンな研究が、ビデオ-LMMsの開発を妨げています。これに対処するために、我々は、LMMsにおけるビデオ理解を効果的に推進する要因を明らかにするのに役立つ包括的な研究を提供します。　まず、ビデオ-LMM研究に関連する高い計算要件の主要な要因を厳密に検証し、小さなモデルやデータセット（臨界点まで）で行われた設計および訓練上の決定が、大きなモデルに効果的に移行する「スケーリングの一貫性」を発見します。これらの知見を活用して、ビデオ-LMMsのビデオ固有の側面、例えばビデオサンプリング、アーキテクチャ、データ構成、訓練スケジュールなどを探求しました。例えば、訓練中のfpsサンプリングが一様なフレームサンプリングよりもはるかに好ましいことや、どのビジョンエンコーダがビデオ表現に最適かを示しました。　これらの知見に基づいて、異なるモデルサイズで優れたパフォーマンスを達成する最先端のLMMsファミリーであるApolloを紹介します。我々のモデルは、長時間のビデオを効率的に認識でき、Apollo-3BはLongVideoBenchで55.1という印象的なスコアで既存のほとんどの7Bモデルを上回っています。Apollo-7Bは、MLVUで70.9、Video-MMEで63.3というスコアで、7B LMMsに比べて最先端の性能を発揮しています。

GenEx: 探索可能な世界の生成
GenEx: Generating an Explorable World

Dec 12

ByTaiming Lu, Tianmin Shu, Junfei Xiao, Luoxin Ye, Jiahao Wang, Cheng Peng, Chen Wei, Daniel Khashabi, Rama Chellappa, Alan Yuille, Jieneng Chen

3D物理的な現実世界の理解、航行、および探索は、人工知能の開発における中心的な課題となってきました。本研究では、周囲の環境についての事前の期待を形成する生成想像力によって導かれた複雑な具現化された世界の探索を計画することができるシステムであるGenExを紹介することで、この目標に一歩近づいています。GenExは、単一のRGB画像からでも完全な3D整合性のある想像上の環境を生成し、それをパノラマビデオストリームを通じて具現化します。Unreal Engineから収集されたスケーラブルな3Dワールドデータを活用して、弊社の生成モデルは物理世界に取り込まれています。それは、わずかな努力で連続した360度の環境を捉え、AIエージェントが探索および相互作用を行うための無限の景観を提供します。GenExは高品質の世界生成、長い軌跡にわたる堅牢なループの整合性を実現し、整合性やアクティブな3Dマッピングなどの強力な3D機能を示しています。世界の生成想像力によって強化されたGPT支援エージェントは、目標に無関係な探索と目標駆動型の航行の両方を含む複雑な具現化されたタスクを実行する能力を備えています。これらのエージェントは、物理世界の見えない部分に関する予測的な期待を利用して、信念を磨き、潜在的な決定に基づいて異なる結果をシミュレートし、より情報のある選択を行います。要約すると、GenExは具現化された空間での具現化されたAIの進化を促進する革新的なプラットフォームを提供し、これらの能力を現実世界の探索に拡張する可能性をもたらします。

SynerGen-VL: ビジョンエキスパートとトークン折り畳みを用いたシナジスティックな画像理解と生成に向けて
SynerGen-VL: Towards Synergistic Image Understanding and Generation with Vision Experts and Token Folding

Dec 12

ByHao Li, Changyao Tian, Jie Shao, Xizhou Zhu, Zhaokai Wang, Jinguo Zhu, Wenhan Dou, Xiaogang Wang, Hongsheng Li, Lewei Lu, Jifeng Dai

大規模言語モデル（LLM）の顕著な成功は、マルチモーダル領域にも広がり、画像理解と生成において優れたパフォーマンスを達成しています。これらの能力を統合する統一されたマルチモーダル大規模言語モデル（MLLM）を開発する最近の取り組みは、有望な結果を示しています。ただし、既存のアプローチはしばしばモデルアーキテクチャやトレーニングパイプラインに複雑な設計を含んでおり、モデルのトレーニングとスケーリングの難しさを増加させています。本論文では、画像理解と生成の両方が可能なシンプルかつ強力なエンコーダーフリーMLLMであるSynerGen-VLを提案します。既存のエンコーダーフリー統一MLLMで特定された課題に対処するために、トークン折り畳みメカニズムとビジョンエキスパートベースのプログレッシブアライメント事前トレーニング戦略を導入し、高解像度画像理解を効果的にサポートしつつトレーニングの複雑さを軽減します。統一された次トークン予測目標で大規模な混合画像テキストデータでトレーニングされた後、SynerGen-VLは、既存のエンコーダーフリー統一MLLMのパフォーマンスを達成または上回り、パラメータサイズが同等または小さい状態でタスク固有の最先端モデルとの差を縮め、将来の統一MLLMへの有望な道筋を示しています。当社のコードとモデルは公開されます。

大規模なアクションモデル：発端から実装まで
Large Action Models: From Inception to Implementation

Dec 13

ByLu Wang, Fangkai Yang, Chaoyun Zhang, Junting Lu, Jiaxu Qian, Shilin He, Pu Zhao, Bo Qiao, Ray Huang, Si Qin, Qisheng Su, Jiayi Ye, Yudi Zhang, Jian-Guang Lou, Qingwei Lin, Saravan Rajmohan, Dongmei Zhang, Qi Zhang

AIの進歩が続く中、言語に基づく支援を超え、現実世界での行動を実行できる知的エージェントに進化するシステムへの需要が高まっています。この進化には、テキスト応答の生成に優れる従来の大規模言語モデル（LLMs）から、動的環境内での行動生成と実行を目的とした大規模行動モデル（LAMs）への移行が必要です。エージェントシステムによって可能にされるLAMsは、AIを受動的な言語理解から能動的なタスク完了へと変革し、人工一般知能に向けた進展において重要なマイルストーンを示しています。本論文では、LAMsの開発のための包括的なフレームワークを提案し、その創造から展開までの体系的なアプローチを提供します。LAMsの概要から始め、その特徴を強調し、LLMsとの違いを明確にします。Windows OSベースのエージェントをケーススタディとして使用し、データ収集、モデルトレーニング、環境統合、グラウンディング、評価など、LAM開発の主要段階について詳細なステップバイステップガイドを提供します。この一般化可能なワークフローは、さまざまなアプリケーション領域で機能的なLAMsを作成するための設計図として役立ちます。最後に、LAMsの現在の制限事項を特定し、将来の研究および産業展開の方向を議論し、現実世界のアプリケーションでLAMsの完全な潜在能力を実現するために前進する際に直面する課題と機会を強調します。本論文で使用されたデータ収集プロセスのコードは、以下のリンクから公開されています：https://github.com/microsoft/UFO/tree/main/dataflow、詳細なドキュメントはhttps://microsoft.github.io/UFO/dataflow/overview/で入手できます。

BiMediX2: 多様な医療モダリティ向けのバイオメディカル専門家LMM
BiMediX2: Bio-Medical EXpert LMM for Diverse Medical Modalities

Dec 10

BySahal Shaji Mullappilly, Mohammed Irfan Kurpath, Sara Pieri, Saeed Yahya Alseiari, Shanavas Cholakkal, Khaled Aldahmani, Fahad Khan, Rao Anwer, Salman Khan, Timothy Baldwin, Hisham Cholakkal

本論文では、バイリンガル（アラビア語-英語）バイオメディカルEXpert Large Multimodal Model（LMM）であるBiMediX2を紹介します。このモデルは、テキストとビジュアルのモダリティを統合した統一アーキテクチャを持ち、高度な画像理解と医療応用を可能にします。BiMediX2はLlama3.1アーキテクチャを活用し、テキストとビジュアルの機能を統合して、英語とアラビア語の両方でシームレスな対話を促進し、医療画像を含むテキストベースの入力やマルチターンの会話をサポートします。このモデルは、1.6Mのサンプルから成る多様な医療インタラクションのバイリンガルヘルスケアデータセットでトレーニングされており、アラビア語と英語が混在しています。また、最初のバイリンガルGPT-4oベースの医療LMMベンチマークであるBiMed-MBenchを提案しています。BiMediX2は、テキストベースと画像ベースのタスクの両方でベンチマークを行い、いくつかの医療ベンチマークで最先端のパフォーマンスを達成しています。このモデルは、医療LLM評価ベンチマークで最近の最先端モデルを上回っています。さらに、英語では9%以上、アラビア語では20%以上の改善を達成し、GPT-4を約9%上回るUPHILL事実の正確性評価で優れ、さまざまな医療ビジュアルクエスチョンアンサリング、レポート生成、レポート要約タスクで優れています。プロジェクトページには、ソースコードとトレーニングされたモデルが掲載されています。https://github.com/mbzuai-oryx/BiMediX2

FreeScale: チューニング不要のスケール融合による拡散モデルの解像度解放
FreeScale: Unleashing the Resolution of Diffusion Models via Tuning-Free Scale Fusion

Dec 12

ByHaonan Qiu, Shiwei Zhang, Yujie Wei, Ruihang Chu, Hangjie Yuan, Xiang Wang, Yingya Zhang, Ziwei Liu

ビジュアル拡散モデルは著しい進歩を遂げていますが、通常、高解像度データの不足や制約のある計算リソースにより、限られた解像度でトレーニングされるため、高解像度の画像やビデオを生成する能力が阻害されています。最近の取り組みでは、事前にトレーニングされたモデルの未開発の高解像度ビジュアル生成の可能性を示すための調整不要の戦略が模索されています。ただし、これらの方法は依然として低品質の視覚コンテンツを生成しやすく、繰り返しパターンが見られます。主な障害は、モデルがトレーニング解像度を超える視覚コンテンツを生成すると、高周波情報が増加し、蓄積されたエラーから生じる望ましくない繰り返しパターンが生じることにあります。この課題に取り組むために、私たちはFreeScaleを提案します。これは、スケール融合を通じて高解像度のビジュアル生成を可能にする調整不要の推論パラダイムです。具体的には、FreeScaleは異なる受容スケールから情報を処理し、望ましい周波数成分を抽出して融合します。広範な実験により、私たちのパラダイムが画像およびビデオモデルの両方における高解像度ビジュアル生成の能力を拡張する点で優れていることが検証されます。特に、従来の最高性能の手法と比較して、FreeScaleは初めて8k解像度の画像生成を実現しました。

InstanceCap：インスタンス感知構造化キャプションを介したテキストからビデオへの生成の改善
InstanceCap: Improving Text-to-Video Generation via Instance-aware Structured Caption

Dec 12

ByTiehan Fan, Kepan Nan, Rui Xie, Penghao Zhou, Zhenheng Yang, Chaoyou Fu, Xiang Li, Jian Yang, Ying Tai

最近、テキストからビデオ生成技術は急速に進化し、顕著な成果をもたらしています。一般的に、トレーニングはビデオキャプションとペアになったデータに依存しており、これは生成パフォーマンスの向上に重要な役割を果たしています。しかし、現在のビデオキャプションはしばしば詳細不足、幻覚、不正確な動き表現などの問題を抱えており、生成されたビデオの忠実度と一貫性に影響を与えています。本研究では、初めてインスタンスレベルおよび細かい粒度のビデオキャプションを実現するために、新しいインスタンス認識構造化キャプションフレームワークであるInstanceCapを提案します。この手法に基づいて、オリジナルのビデオをインスタンスに変換してインスタンスの忠実度を向上させるための補助モデルクラスターを設計します。ビデオのインスタンスは、密なプロンプトを構造化されたフレーズに洗練するためにさらに使用され、簡潔かつ正確な説明を実現します。さらに、トレーニング用に22K InstanceVidデータセットを収集し、InstanceCap構造に合わせた改良パイプラインを推論用に提案します。実験結果は、提案されたInstanceCapが以前のモデルを大幅に上回り、キャプションとビデオの間の高い忠実度を確保しつつ幻覚を減少させることを示しています。

残差ベクトル量子化ベースのトークンを用いた効率的な生成モデリング
Efficient Generative Modeling with Residual Vector Quantization-Based Tokens

Dec 13

ByJaehyeon Kim, Taehong Moon, Keon Lee, Jaewoong Cho

Residual Vector Quantization (RVQ)を使用した高忠実度生成について探究します。この量子化技術は、より深いトークンを使用することでデータの忠実度を高く保ちます。ただし、生成モデル内のトークン数を増やすと推論速度が遅くなります。このため、高忠実度サンプルを生成する効率的なRVQベースの離散拡散モデルであるResGenを紹介します。私たちの主要なアイデアは、個々のトークンではなく集合的なトークンのベクトル埋め込みを直接予測することです。さらに、提案されたトークンマスキングとマルチトークン予測手法が、離散拡散プロセスと変分推論を使用した原則に基づく確率的フレームワーク内で定式化できることを示します。私たちは、異なるモダリティにまたがる2つの困難なタスク、つまりImageNet 256x256における条件付き画像生成とゼロショットのテキスト音声合成において、提案手法の有効性と汎用性を検証します。実験結果は、ResGenが両方のタスクで自己回帰モデルを上回り、サンプリング速度を損なうことなく優れたパフォーマンスを提供することを示しています。さらに、RVQの深さをスケーリングすると、同様のサイズのベースラインモデルと比較して、生成モデルは生成忠実度が向上するか、サンプリング速度が向上します。プロジェクトページは、https://resgen-genai.github.io で入手できます。

ObjectMate：オブジェクト挿入と主体駆動生成のための再現事前確率
ObjectMate: A Recurrence Prior for Object Insertion and Subject-Driven Generation

Dec 11

ByDaniel Winter, Asaf Shul, Matan Cohen, Dana Berman, Yael Pritch, Alex Rav-Acha, Yedid Hoshen

本論文では、オブジェクトの挿入と主体駆動生成の両方にチューニング不要な手法を紹介します。このタスクは、複数の視点が与えられた状態で、オブジェクトを画像またはテキストで指定されたシーンに構成することを含みます。既存の手法は、(i)オブジェクトを写実的なポーズとライティングでシーンにシームレスに構成すること、および(ii)オブジェクトのアイデンティティを保持することという、このタスクの厳しい目標を完全に満たすのに苦労しています。これらの目標を達成するには大規模な監督が必要と考えられますが、十分なデータを手動で収集するのは単純に高すぎます。本論文の鍵となる観察は、多くの大量生産されたオブジェクトが大規模な未ラベルデータセットの異なるシーン、ポーズ、ライティング条件の複数の画像で繰り返し現れるということです。この観察を活用して、同じオブジェクトの異なるビューのセットを取得することで、大規模な監督を作成します。この強力なペアデータセットにより、オブジェクトとシーンの説明を合成画像にマッピングするための直感的なテキストから画像への拡散アーキテクチャを訓練することが可能となります。ObjectMateと呼ばれる当社の手法を、オブジェクトの挿入と主体駆動生成の最先端手法と単一または複数の参照を使用して比較します。経験的に、ObjectMateは優れたアイデンティティの保存とより写実的な構成を実現しています。多くの他の多重参照手法とは異なり、ObjectMateは遅いテスト時間のチューニングを必要としません。

FireFlow: 画像意味編集のための整流されたフローの高速反転
FireFlow: Fast Inversion of Rectified Flow for Image Semantic Editing

Dec 10

ByYingying Deng, Xiangyu He, Changwang Mei, Peisong Wang, Fan Tang

Rectified Flows（ReFlows）と蒸留を組み合わせた手法は高速なサンプリングを提供する可能性がありますが、その高速な反転変換により画像が構造化されたノイズに戻ってしまい、回復および後続の編集が未解決のままです。本論文では、FireFlowというシンプルかつ効果的なゼロショットアプローチを紹介し、ReFlowベースのモデル（例：FLUX）の驚異的な生成能力を継承しつつ、正確な反転と編集を8段階で実現しています。まず、ReFlowの反転には慎重に設計された数値ソルバーが不可欠であることを示し、第2階微分ソルバーの精度を保ちながら第1階オイラー法の実用的な効率性を維持することが可能です。このソルバーは、最先端のReFlow反転および編集技術と比較して3倍のランタイム高速化を実現し、トレーニング不要のモードでより小さな再構成エラーと優れた編集結果を提供します。コードは以下のURLから入手できます：https://github.com/HolmesShuan/FireFlow{このURL}。

SCBench：長文脈メソッドのKVキャッシュ中心分析
SCBench: A KV Cache-Centric Analysis of Long-Context Methods

Dec 13

ByYucheng Li, Huiqiang Jiang, Qianhui Wu, Xufang Luo, Surin Ahn, Chengruidong Zhang, Amir H. Abdi, Dongsheng Li, Jianfeng Gao, Yuqing Yang, Lili Qiu

長い文脈を持つLLMは、多くの下流アプリケーションを可能にしましたが、計算とメモリの効率に関連する重要な課題も導入しました。これらの課題に対処するために、長い文脈推論のための最適化が開発され、KVキャッシュを中心としています。ただし、既存のベンチマークはしばしば単一リクエストで評価され、実世界でのKVキャッシュの完全なライフサイクルを無視しています。この見落としは特に重要であり、KVキャッシュの再利用は、vLLMやSGLangなどのLLM推論フレームワーク、およびOpenAI、Microsoft、Google、AnthropicなどのLLMプロバイダーで広く採用されています。このギャップを埋めるために、私たちはSCBench(SharedContextBench)を導入しました。これは、KVキャッシュ中心の視点から長い文脈手法を評価する包括的なベンチマークです。具体的には、SCBenchは、共有コンテキストを持つテスト例を使用し、12のタスクと2つの共有コンテキストモードをカバーする4つの長い文脈能力のカテゴリを対象としています。これにより、Gated Linear RNN、Mamba-Attentionハイブリッドなどの8つのカテゴリの長い文脈ソリューションについて、KVキャッシュ中心の包括的な分析を提供します。評価は8つの長い文脈LLMで行われます。私たちの調査結果は、サブO(n)メモリ手法がマルチターンシナリオで苦戦する一方、O(n)メモリとサブO(n^2)プリフィリング計算を持つ疎な符号化が堅調に機能することを示しています。動的スパース性は、静的パターンよりも表現力豊かなKVキャッシュを提供し、ハイブリッドアーキテクチャのレイヤーレベルのスパース性は、強力なパフォーマンスとともにメモリ使用量を削減します。さらに、長い生成シナリオでの注意分布のシフト問題を特定しました。https://aka.ms/SCBench.

LinGen: 高解像度の1分間テキストからビデオへの生成に向けて、線形計算複雑性を持つ
LinGen: Towards High-Resolution Minute-Length Text-to-Video Generation with Linear Computational Complexity

Dec 13

ByHongjie Wang, Chih-Yao Ma, Yen-Cheng Liu, Ji Hou, Tao Xu, Jialiang Wang, Felix Juefei-Xu, Yaqiao Luo, Peizhao Zhang, Tingbo Hou, Peter Vajda, Niraj K. Jha, Xiaoliang Dai

ビデオ生成のテキストはコンテンツ作成を向上させますが、計算量が非常に多くかかります。拡散トランスフォーマー（DiTs）の計算コストはピクセル数の二乗に比例します。これにより、短いビデオの生成は非常に高額となり、既存のほとんどのモデルが10〜20秒のビデオ生成に限定されています。私たちは、ピクセル数に比例して線形にスケーリングするLinear-complexity text-to-video Generation（LinGen）フレームワークを提案します。LinGenは、高解像度の長いビデオ生成を単一のGPUで犠牲にすることなく実現します。これは、計算的に支配的で二次計算量のセルフアテンションブロックを、MA-branchとTE-branchからなる線形計算量のMATEブロックに置き換えます。MA-branchは、短距離から長距離の相関を対象とし、双方向のMamba2ブロックと、長いビデオ生成のために開発されたトークン再配置手法であるRotary Major Scan、およびレビュートークンを組み合わせます。TE-branchは、隣接トークンと中距離トークン間の時間的相関に焦点を当てた新しいTEmporal Swin Attentionブロックです。MATEブロックは、Mambaの隣接保存の問題を解決し、生成されたビデオの一貫性を大幅に向上させます。実験結果によると、LinGenは、ビデオ品質においてDiTを上回り（勝率75.6%）、FLOPs（遅延）を最大15倍（11.5倍）削減します。さらに、自動メトリクスと人間の評価の両方が、LinGen-4Bが最先端のモデル（Gen-3、LumaLabs、Klingに対してそれぞれ50.5%、52.1%、49.1%の勝率）と同等のビデオ品質を提供することを示しています。これは、長時間の映画生成やリアルタイムのインタラクティブビデオ生成への道を開きます。プロジェクトウェブサイトで68秒のビデオ生成結果やその他の例を提供しています：https://lineargen.github.io/。

FluxSpace: 正規化フロー変換器における分離された意味編集
FluxSpace: Disentangled Semantic Editing in Rectified Flow Transformers

Dec 12

ByYusuf Dalva, Kavana Venkatesh, Pinar Yanardag

修正フローモデルは、画像生成において支配的なアプローチとして台頭し、高品質な画像合成における印象的な能力を示しています。しかしながら、視覚生成において効果的であるにもかかわらず、修正フローモデルはしばしば画像の分離された編集に苦労します。この制限により、画像の関連性のない側面に影響を与えることなく、正確な属性固有の修正を行う能力が妨げられます。本論文では、FluxSpaceという、Fluxなどの修正フロートランスフォーマーによって生成された画像の意味を制御する能力を持つドメインに依存しない画像編集手法を紹介します。修正フローモデル内のトランスフォーマーブロックによって学習された表現を活用することで、幅広い画像編集タスク、細かい画像編集から芸術的創造まで可能にする、意味的に解釈可能な表現のセットを提案します。この研究は、拡張可能で効果的な画像編集手法を提供し、その分離能力も含まれています。

明示的なブリッジと検索拡張を備えたマルチモーダル音楽生成
Multimodal Music Generation with Explicit Bridges and Retrieval Augmentation

Dec 12

ByBaisen Wang, Le Zhuo, Zhaokai Wang, Chenxi Bao, Wu Chengjing, Xuecheng Nie, Jiao Dai, Jizhong Han, Yue Liao, Si Liu

マルチモーダル音楽生成は、テキスト、ビデオ、画像など多様な入力モダリティから音楽を生成することを目指しています。既存の手法は、マルチモーダル融合のための共通の埋め込み空間を使用しています。他のモダリティでの効果的な使用にもかかわらず、マルチモーダル音楽生成への適用には、データの不足、弱いクロスモーダルの整合性、制御性の限界といった課題があります。本論文では、テキストと音楽の明示的なブリッジを使用してこれらの問題に取り組んでいます。Visuals Music Bridge（VMB）という新しい手法を導入します。具体的には、マルチモーダル音楽記述モデルが視覚的入力を詳細なテキスト記述に変換してテキストブリッジを提供し、広範囲とターゲットを組み合わせたリトリーバル戦略を使用して音楽ブリッジを提供し、ユーザー制御を可能にするデュアルトラック音楽リトリーバルモジュールを備えています。最後に、2つのブリッジに基づいて音楽を生成するための明示的に条件付けられた音楽生成フレームワークを設計しています。ビデオから音楽、画像から音楽、テキストから音楽、および制御可能な音楽生成タスクに関する実験を実施し、制御性に関する実験も行っています。その結果、VMBは以前の手法と比較して、音楽の品質、モダリティ、およびカスタマイズの整合性を大幅に向上させることが示されました。VMBは、さまざまなマルチメディア分野での応用を持つ解釈可能で表現豊かなマルチモーダル音楽生成の新たな標準を確立しています。デモとコードはhttps://github.com/wbs2788/VMB で入手可能です。

GReaTer: 推論上の勾配が小さな言語モデルを強化するプロンプト最適化器
GReaTer: Gradients over Reasoning Makes Smaller Language Models Strong Prompt Optimizers

Dec 12

BySarkar Snigdha Sarathi Das, Ryo Kamoi, Bo Pang, Yusen Zhang, Caiming Xiong, Rui Zhang

大規模言語モデル（LLMs）の効果は、プロンプトの設計と密接に関連しており、様々なタスクでのパフォーマンスを向上させるためにプロンプトの最適化が不可欠です。自動化されたプロンプトエンジニアリングへの多くの既存手法は、大規模で計算コストの高いLLMsによって特定された推論エラーに基づいてプロンプトを改良するために、テキストフィードバックにのみ依存しています。残念ながら、より小さなモデルは高品質なフィードバックを生成するのに苦労し、大規模LLMの判断に完全に依存することになります。さらに、これらの手法は、純粋にテキスト空間での操作のため、勾配などのより直接的で精緻な情報を活用することができません。このため、我々は、GReaTerという新しいプロンプト最適化技術を紹介します。GReaTerは、タスク固有の推論に対する勾配情報を直接組み込むことで、オープンソースで軽量な言語モデル向けのプロンプトの自己最適化を実現します。これにより、高性能なプロンプト最適化が巨大なLLMsに依存せずに可能となり、小さなモデルとプロンプトの洗練によく必要とされる洗練された推論との間のギャップを埋めます。BBH、GSM8k、FOLIOを含む多様な推論タスクを対象とした包括的な評価により、GReaTerが従来の最先端のプロンプト最適化手法を一貫して上回ることが示されました。さらに、GReaTerによって最適化されたプロンプトは、より高い転移性を示し、一部の場合には、大規模言語モデルに匹敵するかそれを上回るレベルのタスクパフォーマンスを向上させることがあり、勾配による推論によるプロンプト最適化の効果を示しています。GReaTerのコードは、https://github.com/psunlpgroup/GreaTer で入手可能です。

SmolTulu：学習率とバッチサイズの比率が高いと、SLMにおいてより良い推論が可能になる可能性があります。
SmolTulu: Higher Learning Rate to Batch Size Ratios Can Lead to Better Reasoning in SLMs

Dec 11

BySultan Alrashed

本報告で言及されているSmolTulu-DPO-1130として参照されるSmolTulu-1.7b-Instructを提案します。これは、AllenAIのTulu 3の事後トレーニングパイプラインを適応させ、HuggingfaceのSmolLM2-1.7Bベースモデルを強化するように調整されたインストラクションチューンされた言語モデルです。1億3500万のパラメータモデルを使用した包括的な経験的分析を通じて、学習率とバッチサイズの関係がタスクに依存してモデルのパフォーマンスに大きく影響することを実証します。我々の調査結果は、ARCやGSM8Kなどの推論タスクが、学習率とバッチサイズの比率が高いほど恩恵を受ける一方、HellaSwagやIFEvalなどのパターン認識タスクは、より低い比率で最適なパフォーマンスを示すことを明らかにします。これらの知見は、SmolTuluの開発に活かされ、IFEvalで67.7%（Delta11%）、GSM8Kで数学的推論に51.6%（Delta3.4%）のスコアを獲得し、別バージョンではARCで57.1%（Delta5.4%）のスコアを達成します。我々は、モデル、トレーニングレシピ、および削減研究を公開し、効率的なモデル調整に関するさらなる研究を促進することで、最小から最大の言語モデル間の能力差を埋めるのに最適化ダイナミクスの慎重な適応が役立つことを示しています。

TraceVLA：ビジュアルトレースプロンプティングは、一般的なロボットポリシーの空間的時間的認識を向上させます。
TraceVLA: Visual Trace Prompting Enhances Spatial-Temporal Awareness for Generalist Robotic Policies

Dec 13

ByRuijie Zheng, Yongyuan Liang, Shuaiyi Huang, Jianfeng Gao, Hal Daumé III, Andrey Kolobov, Furong Huang, Jianwei Yang

広範なロボットデータセットで事前学習された大規模なビジョン・言語・アクション（VLA）モデルは、ロボティクスの学習において有望な汎用ポリシーを提供しますが、対話型ロボティクスにおける空間的・時間的ダイナミクスには依然として苦労しており、操作などの複雑なタスクの処理には効果が限られています。本研究では、視覚的なトレースプロンプティングというシンプルかつ効果的なアプローチを導入し、状態-アクションの軌跡を視覚的にエンコードすることで、VLAモデルの空間的・時間的認識を促進する方法を提案します。私たちは、150Kのロボット操作軌跡を収集した独自のデータセットを用いて、視覚的なトレースプロンプティングを行い、新しいTraceVLAモデルを開発しました。SimplerEnvにおける137の構成と物理的なWidowXロボット上の4つのタスクを通じたTraceVLAの評価は、最先端のパフォーマンスを示し、SimplerEnvではOpenVLAを10%、実際のロボットタスクでは3.5倍上回り、多様な具現化とシナリオにわたる堅牢な汎化を示しました。さらに、効果と汎用性を検証するために、Open-X-Embodimentで事前学習された4B Phi-3-Visionに基づくコンパクトなVLAモデルを提案し、当社のデータセットで微調整することで、7BのOpenVLAベースラインに匹敵しながら推論効率を大幅に向上させました。

Prompt2Perturb（P2P）：テキストによる誘導を受けた拡散ベースの乳房超音波画像への敵対的攻撃
Prompt2Perturb (P2P): Text-Guided Diffusion-Based Adversarial Attacks on Breast Ultrasound Images

Dec 13

ByYasamin Medghalchi, Moein Heidari, Clayton Allard, Leonid Sigal, Ilker Hacihaliloglu

深層ニューラルネットワーク（DNN）は、医用画像診断における乳がん診断の向上に大きな可能性をもたらします。しかし、これらのモデルは、分類器を誤らせる微小で認識できない変更を行う敵対的攻撃に非常に脆弱であり、信頼性とセキュリティに関する重要な懸念を引き起こしています。従来の攻撃は、固定ノルム摂動に依存し、人間の知覚とは異なります。これに対し、拡散ベースの攻撃は、事前にトレーニングされたモデルを必要とし、これらのモデルが利用できない場合には大量のデータを要求し、データが不足しているシナリオでの実用を制限します。しかしながら、医用画像では、データセットの入手が制限されているため、これはしばしば実現不可能です。最近の学習可能なプロンプトの進展に基づき、我々はPrompt2Perturb（P2P）という新しい言語による攻撃手法を提案します。この手法は、テキストの指示によって駆動される意味のある攻撃例を生成することができます。プロンプト学習フェーズでは、我々の手法は、テキストエンコーダ内の学習可能なプロンプトを活用して、微妙でありながら効果的な摂動を作成し、モデルを目標とする結果に誘導しながら、認識できないままにします。現在のプロンプト学習ベースの手法とは対照的に、我々のP2Pは、テキスト埋め込みを直接更新することで、拡散モデルの再トレーニングを回避する点で際立っています。さらに、初期の逆拡散ステップのみを最適化することで効率を向上させ、生成された敵対的例に微妙なノイズを組み込みながら、超音波画像の品質を損なうことなく、目立つアーティファクトを導入しません。我々の手法が、FIDとLPIPSにおいて、3つの乳がん超音波データセット全体で最先端の攻撃手法を凌駕することを示します。さらに、生成された画像は、外観がより自然であり、既存の敵対的攻撃と比較してより効果的です。我々のコードは公開されます：https://github.com/yasamin-med/P2P。

AI研究論文デイリー

翻訳付きの日次キュレーションされたAI研究論文

アポロ：大規模なマルチモーダルモデルにおけるビデオ理解の探求
Apollo: An Exploration of Video Understanding in Large Multimodal Models

Dec 13

ByOrr Zohar, Xiaohan Wang, Yann Dubois, Nikhil Mehta, Tong Xiao, Philippe Hansen-Estruch, Licheng Yu, Xiaofang Wang, Felix Juefei-Xu, Ning Zhang, Serena Yeung-Levy, Xide Xia

147

GenEx: 探索可能な世界の生成
GenEx: Generating an Explorable World

Dec 12

ByTaiming Lu, Tianmin Shu, Junfei Xiao, Luoxin Ye, Jiahao Wang, Cheng Peng, Chen Wei, Daniel Khashabi, Rama Chellappa, Alan Yuille, Jieneng Chen

SynerGen-VL: ビジョンエキスパートとトークン折り畳みを用いたシナジスティックな画像理解と生成に向けて
SynerGen-VL: Towards Synergistic Image Understanding and Generation with Vision Experts and Token Folding

Dec 12

ByHao Li, Changyao Tian, Jie Shao, Xizhou Zhu, Zhaokai Wang, Jinguo Zhu, Wenhan Dou, Xiaogang Wang, Hongsheng Li, Lewei Lu, Jifeng Dai

大規模なアクションモデル：発端から実装まで
Large Action Models: From Inception to Implementation

Dec 13

BiMediX2: 多様な医療モダリティ向けのバイオメディカル専門家LMM
BiMediX2: Bio-Medical EXpert LMM for Diverse Medical Modalities

Dec 10

BySahal Shaji Mullappilly, Mohammed Irfan Kurpath, Sara Pieri, Saeed Yahya Alseiari, Shanavas Cholakkal, Khaled Aldahmani, Fahad Khan, Rao Anwer, Salman Khan, Timothy Baldwin, Hisham Cholakkal

FreeScale: チューニング不要のスケール融合による拡散モデルの解像度解放
FreeScale: Unleashing the Resolution of Diffusion Models via Tuning-Free Scale Fusion

Dec 12

ByHaonan Qiu, Shiwei Zhang, Yujie Wei, Ruihang Chu, Hangjie Yuan, Xiang Wang, Yingya Zhang, Ziwei Liu

InstanceCap：インスタンス感知構造化キャプションを介したテキストからビデオへの生成の改善
InstanceCap: Improving Text-to-Video Generation via Instance-aware Structured Caption

Dec 12

ByTiehan Fan, Kepan Nan, Rui Xie, Penghao Zhou, Zhenheng Yang, Chaoyou Fu, Xiang Li, Jian Yang, Ying Tai

残差ベクトル量子化ベースのトークンを用いた効率的な生成モデリング
Efficient Generative Modeling with Residual Vector Quantization-Based Tokens

Dec 13

ByJaehyeon Kim, Taehong Moon, Keon Lee, Jaewoong Cho

ObjectMate：オブジェクト挿入と主体駆動生成のための再現事前確率
ObjectMate: A Recurrence Prior for Object Insertion and Subject-Driven Generation

Dec 11

ByDaniel Winter, Asaf Shul, Matan Cohen, Dana Berman, Yael Pritch, Alex Rav-Acha, Yedid Hoshen

FireFlow: 画像意味編集のための整流されたフローの高速反転
FireFlow: Fast Inversion of Rectified Flow for Image Semantic Editing

Dec 10

ByYingying Deng, Xiangyu He, Changwang Mei, Peisong Wang, Fan Tang

SCBench：長文脈メソッドのKVキャッシュ中心分析
SCBench: A KV Cache-Centric Analysis of Long-Context Methods

Dec 13

ByYucheng Li, Huiqiang Jiang, Qianhui Wu, Xufang Luo, Surin Ahn, Chengruidong Zhang, Amir H. Abdi, Dongsheng Li, Jianfeng Gao, Yuqing Yang, Lili Qiu

LinGen: 高解像度の1分間テキストからビデオへの生成に向けて、線形計算複雑性を持つ
LinGen: Towards High-Resolution Minute-Length Text-to-Video Generation with Linear Computational Complexity

Dec 13

ByHongjie Wang, Chih-Yao Ma, Yen-Cheng Liu, Ji Hou, Tao Xu, Jialiang Wang, Felix Juefei-Xu, Yaqiao Luo, Peizhao Zhang, Tingbo Hou, Peter Vajda, Niraj K. Jha, Xiaoliang Dai

FluxSpace: 正規化フロー変換器における分離された意味編集
FluxSpace: Disentangled Semantic Editing in Rectified Flow Transformers

Dec 12

ByYusuf Dalva, Kavana Venkatesh, Pinar Yanardag

明示的なブリッジと検索拡張を備えたマルチモーダル音楽生成
Multimodal Music Generation with Explicit Bridges and Retrieval Augmentation

Dec 12

ByBaisen Wang, Le Zhuo, Zhaokai Wang, Chenxi Bao, Wu Chengjing, Xuecheng Nie, Jiao Dai, Jizhong Han, Yue Liao, Si Liu

GReaTer: 推論上の勾配が小さな言語モデルを強化するプロンプト最適化器
GReaTer: Gradients over Reasoning Makes Smaller Language Models Strong Prompt Optimizers

Dec 12

BySarkar Snigdha Sarathi Das, Ryo Kamoi, Bo Pang, Yusen Zhang, Caiming Xiong, Rui Zhang

SmolTulu：学習率とバッチサイズの比率が高いと、SLMにおいてより良い推論が可能になる可能性があります。
SmolTulu: Higher Learning Rate to Batch Size Ratios Can Lead to Better Reasoning in SLMs

Dec 11

BySultan Alrashed

TraceVLA：ビジュアルトレースプロンプティングは、一般的なロボットポリシーの空間的時間的認識を向上させます。
TraceVLA: Visual Trace Prompting Enhances Spatial-Temporal Awareness for Generalist Robotic Policies

Dec 13

ByRuijie Zheng, Yongyuan Liang, Shuaiyi Huang, Jianfeng Gao, Hal Daumé III, Andrey Kolobov, Furong Huang, Jianwei Yang

Prompt2Perturb（P2P）：テキストによる誘導を受けた拡散ベースの乳房超音波画像への敵対的攻撃
Prompt2Perturb (P2P): Text-Guided Diffusion-Based Adversarial Attacks on Breast Ultrasound Images

Dec 13

ByYasamin Medghalchi, Moein Heidari, Clayton Allard, Leonid Sigal, Ilker Hacihaliloglu