AI研究論文デイリー

翻訳付きの日次キュレーションされたAI研究論文

大規模な画像キャプションデータを再検討し、マルチモーダル基盤モデルの事前学習を行う
Revisit Large-Scale Image-Caption Data in Pre-training Multimodal Foundation Models

Oct 3

ByZhengfeng Lai, Vasileios Saveris, Chen Chen, Hong-You Chen, Haotian Zhang, Bowen Zhang, Juan Lao Tebar, Wenze Hu, Zhe Gan, Peter Grasch, Meng Cao, Yinfei Yang

最近の多様モデルの進歩は、性能向上のために書き直されたキャプションの価値を強調していますが、重要な課題が残っています。例えば、合成キャプションはしばしば優れた品質と画像テキストの整合性を提供しますが、それらがAltTextを完全に置き換えることができるかどうかは明確ではありません。合成キャプションの役割とそれらが元のWebクロールされたAltTextとの相互作用が事前学習においてまだ十分に理解されていません。さらに、異なる多様基盤モデルは特定のキャプション形式に対する固有の好みを持つ可能性がありますが、各モデルに最適なキャプションを特定する取り組みは限られています。本研究では、さまざまな多様モデルに合わせた多様なキャプション形式を生成するために設計された新しい、制御可能でスケーラブルなキャプションパイプラインを提案します。Short Synthetic Captions（SSC）からDense Synthetic Captions（DSC+）へのケーススタディとして、合成キャプションとAltTextとの効果や相互作用を体系的に探究します。CLIP、多様モーダルLLMs、拡散モデルなどのモデルを対象に、合成キャプションとAltTextの両方を保持するハイブリッドアプローチが、合成キャプションの単独使用よりも性能と整合性の両方を向上させることがわかりました。各モデルが特定のキャプション形式を好むことが示され、この包括的な分析は、キャプション戦略の最適化に関する貴重な示唆を提供し、多様モデルの事前学習を推進します。

SageAttention：プラグアンドプレイ推論のための正確な8ビットアテンションアクセラレーション
SageAttention: Accurate 8-Bit Attention for Plug-and-play Inference Acceleration

Oct 3

ByJintao Zhang, Jia wei, Pengle Zhang, Jun Zhu, Jianfei Chen

トランスフォーマーアーキテクチャがさまざまなモデルで主流となっています。トランスフォーマーの中心であるアテンションは、線形変換のO(N)に比べてO(N^2)の計算量を持ちます。大規模なシーケンス長を扱う際、アテンションは主要な時間を要する要素となります。量子化はモデルの推論を加速する効果的な手法であることが証明されていますが、既存の量子化手法は主に線形層の最適化に焦点を当てています。このため、我々はまず、アテンションにおける量子化の実現可能性を詳細に分析します。その後、我々はSageAttentionという、アテンションのための高効率かつ正確な量子化手法を提案します。当該手法のOPS（1秒あたりの演算回数）は、FlashAttention2およびxformersをそれぞれ約2.1倍および2.7倍上回ります。SageAttentionはまた、FlashAttention3に比べて優れた精度性能を達成します。包括的な実験により、我々の手法が、大規模言語処理、画像生成、ビデオ生成を含むさまざまなモデルにおいて、エンドツーエンドのメトリクス損失がほとんどないことが確認されました。

Depth Pro: 1秒未満での鮮明な単眼メトリック深度
Depth Pro: Sharp Monocular Metric Depth in Less Than a Second

Oct 2

ByAleksei Bochkovskii, Amaël Delaunoy, Hugo Germain, Marcel Santos, Yichao Zhou, Stephan R. Richter, Vladlen Koltun

ゼロショットメトリック単眼奥行き推定のための基礎モデルを提案します。当社のモデル、Depth Proは、類を見ない鮮明さと高周波数の詳細を持つ高解像度の奥行きマップを合成します。予測はメトリックであり、絶対スケールであり、カメラ固有のメタデータの利用を必要としません。また、このモデルは高速であり、標準的なGPU上で0.3秒で225万画素の奥行きマップを生成します。これらの特性は、密な予測のための効率的なマルチスケールビジョントランスフォーマー、高いメトリック精度と細かい境界トレースを実現するために実際のデータセットと合成データセットを組み合わせてトレーニングするプロトコル、推定された奥行きマップの境界精度のための専用評価メトリック、単一画像からの最先端の焦点距離推定など、いくつかの技術的貢献によって実現されています。詳細な実験により、特定の設計選択肢を分析し、Depth Proが複数の側面で従来の研究を凌駕することを示しています。コードと重みは、https://github.com/apple/ml-depth-pro で公開されています。

合成データを用いたビデオ指示の調整
Video Instruction Tuning With Synthetic Data

Oct 3

ByYuanhan Zhang, Jinming Wu, Wei Li, Bo Li, Zejun Ma, Ziwei Liu, Chunyuan Li

ビデオ大規模マルチモーダルモデル（LMMs）の開発は、ウェブから大量で高品質な生データを収集する難しさによって妨げられてきました。この課題に対処するために、私たちはビデオ指示に従うための高品質な合成データセット、具体的にはLLaVA-Video-178Kを作成することで代替手法を提案します。このデータセットには、詳細なキャプショニング、オープンエンドの質疑応答（QA）、および多肢選択式QAなどの主要なタスクが含まれています。このデータセットでのトレーニングを行い、既存のビジュアル指示チューニングデータと組み合わせることで、新しいビデオLMMであるLLaVA-Videoを導入します。私たちの実験は、LLaVA-Videoがさまざまなビデオベンチマークで強力なパフォーマンスを達成し、当該データセットの効果を示しています。私たちは、データセット、その生成パイプライン、およびモデルのチェックポイントを公開する予定です。

LLaVA-Critic：マルチモーダルモデルの評価を学習する
LLaVA-Critic: Learning to Evaluate Multimodal Models

Oct 3

ByTianyi Xiong, Xiyao Wang, Dong Guo, Qinghao Ye, Haoqi Fan, Quanquan Gu, Heng Huang, Chunyuan Li

LLaVA-Criticを紹介します。これは、広範囲のマルチモーダルタスクにわたるパフォーマンスを評価するための一般的な評価者として設計された初のオープンソースの大規模マルチモーダルモデル（LMM）です。LLaVA-Criticは、多様な評価基準とシナリオを組み込んだ高品質の評価者指示に従うデータセットを使用してトレーニングされています。私たちの実験では、このモデルの効果を示しました。具体的には、(1) LMM-としてジャッジとして、LLaVA-Criticは信頼性のある評価スコアを提供し、複数の評価ベンチマークでGPTモデルと同等またはそれを上回るパフォーマンスを発揮します。そして(2) 好み学習において、好み学習のための報酬信号を生成し、モデルの整合性能力を向上させます。この研究は、オープンソースLMMの自己批評と評価の潜在能力を強調し、LMM向けのスケーラブルで超人的な整合フィードバックメカニズムに向けた将来の研究の舞台を設定しています。

対照的な局所言語画像事前学習
Contrastive Localized Language-Image Pre-Training

Oct 3

ByHong-You Chen, Zhengfeng Lai, Haotian Zhang, Xinze Wang, Marcin Eichner, Keen You, Meng Cao, Bowen Zhang, Yinfei Yang, Zhe Gan

対照的な言語-画像事前学習（CLIP）は、ビジョンエンコーダーを訓練して画像/テキスト表現を生成するための優れた方法として賞賛されています。これは、さまざまなアプリケーションを容易にするものです。最近、CLIPは、画像入力を言語の相互作用に接続するために、多モーダル大規模言語モデル（MLLMs）のビジョンバックボーンとして広く採用されています。CLIPの成功は、画像レベルでのウェブクロールされたノイズのあるテキスト注釈を整列させることに依存しています。ただし、このような基準は、特にMLLMsにとって領域レベルの理解が要求される場合など、微細なビジョン表現が必要な下流タスクには不十分である可能性があります。本論文では、CLIPのローカライズ能力を向上させるためにいくつかの進歩を遂げました。私たちは、CLIPを領域-テキストの対照的な損失とモジュールで補完することにより、Contrastive Localized Language-Image Pre-training（CLOC）という事前学習方法を提案します。我々は、新しい概念であるプロンプト可能な埋め込みを定式化しました。このエンコーダは、空間的なヒントを与えられた場合に簡単に領域表現に変換できる画像埋め込みを生成します。大規模な事前学習をサポートするために、視覚的に豊かで空間的に局在したキャプションフレームワークを設計し、効果的にスケールで領域-テキストの疑似ラベルを生成します。数十億の注釈付き画像にスケーリングすることで、CLOCは画像領域認識および検索タスク向けの高品質な領域埋め込みを可能にし、CLIPの代替としてMLLMsを強化し、特に参照および基準タスクで優れた性能を発揮します。

Loong: 自己回帰言語モデルを用いた分単位の長いビデオの生成
Loong: Generating Minute-level Long Videos with Autoregressive Language Models

Oct 3

ByYuqing Wang, Tianwei Xiong, Daquan Zhou, Zhijie Lin, Yang Zhao, Bingyi Kang, Jiashi Feng, Xihui Liu

数分間のスケールでコンテンツ豊かな長いビデオを生成することは望ましいが、困難です。自己回帰型の大規模言語モデル（LLM）は、自然言語処理の領域でトークンの連続した一貫した長いシーケンスを生成することで大きな成功を収めていますが、自己回帰型LLMを使用したビデオ生成の探索は、数秒の短いビデオを生成するにとどまっています。本研究では、自己回帰型LLMベースのビデオジェネレーターが長いビデオを生成するのを阻む課題について深く分析します。観察と分析に基づいて、私たちはLoongという新しい自己回帰型LLMベースのビデオジェネレーターを提案します。具体的には、テキストトークンとビデオトークンを自己回帰型LLM用に統一されたシーケンスとしてモデル化し、モデルをゼロからトレーニングします。長いビデオのトレーニングにおける損失の不均衡問題を緩和するために、進行的な短いから長いトレーニングと損失再重み付けスキームを提案します。また、ビデオトークンの再符号化やサンプリング戦略などの推論戦略を調査し、推論中のエラー蓄積を減らします。提案されたLoongは、10秒のビデオでトレーニングでき、テキストプロンプトに基づいて分条件付けされた分単位の長いビデオを生成することができます。詳細なサンプルは以下で入手可能です：https://epiphqny.github.io/Loong-video.

拡散モデルにおける高いガイダンススケールの過飽和とアーティファクトの除去
Eliminating Oversaturation and Artifacts of High Guidance Scales in Diffusion Models

Oct 3

BySeyedmorteza Sadat, Otmar Hilliges, Romann M. Weber

クラシファイアを使用しないガイダンス（CFG）は、拡散モデルにおいて生成品質と入力条件と最終出力の整合性の両方を向上させるために重要です。これらの側面を強化するには一般的に高いガイダンススケールが必要ですが、これは過飽和や非現実的なアーティファクトを引き起こすこともあります。本論文では、この問題に対処するためにCFGの更新ルールを再検討し、修正を導入します。まず、CFGにおける更新項を条件付きモデルの予測に対する平行成分と直交成分に分解し、平行成分が主に過飽和を引き起こす一方、直交成分が画像品質を向上させることを観察します。それに基づき、過飽和を回避しつつ高品質の生成を実現するために、平行成分の重み付けを軽減することを提案します。さらに、CFGと勾配上昇との関連性を明らかにし、この洞察に基づいてCFGの更新ルールのための新しい再スケーリングとモーメント法を導入します。本手法である適応的射影ガイダンス（APG）は、過飽和を引き起こすことなく高いガイダンススケールの使用を可能にしつつ、CFGの品質向上の利点を維持します。APGは実装が容易であり、サンプリングプロセスにほとんど追加の計算負荷を導入しません。豊富な実験を通じて、APGがさまざまな条件付き拡散モデルとサンプラーと互換性があり、FID、再現率、飽和スコアが向上し、CFGと同等の精度を維持しつつ、標準のクラシファイアを使用しないガイダンスに対する優れたプラグアンドプレイの代替手法であることを示します。

大規模言語モデルをマルコフ連鎖として
Large Language Models as Markov Chains

Oct 3

ByOussama Zekri, Ambroise Odonnat, Abdelhakim Benechehab, Linus Bleistein, Nicolas Boullé, Ievgen Redko

大規模言語モデル（LLMs）は、自然言語処理タスク全般にわたって非常に効率的であり、それ以上の領域でも優れた性能を発揮していることが証明されています。ただし、その印象的な性能の起源に関する包括的な理論的分析はまだ明確ではありません。本論文では、サイズTの語彙とサイズKのコンテキストウィンドウを持つ一般的な自己回帰言語モデルと、サイズがO(T^K)の有限状態空間上に定義されたマルコフ連鎖との同等性を示すことで、この難しい課題に取り組みます。我々は、LLMsの推論力を捉えるマルコフ連鎖の定常分布の存在、それに対する収束速度、およびその温度への影響に関連するいくつかの驚くべき発見を導出します。その後、事前学習とコンテキスト内汎化の境界を証明し、描かれた同等性がこれらの解釈を豊かにする方法を示します。最後に、実験を通じて最近のいくつかのLLMsにおける観察された振る舞いを捉える方法を強調するために、理論的保証を実証します。

VinePPO: 精緻なクレジット割り当てを通じてLLM推論のためのRLポテンシャルを解き放つ
VinePPO: Unlocking RL Potential For LLM Reasoning Through Refined Credit Assignment

Oct 2

ByAmirhossein Kazemnejad, Milad Aghajohari, Eva Portelance, Alessandro Sordoni, Siva Reddy, Aaron Courville, Nicolas Le Roux

大規模言語モデル（LLMs）は、報酬を受け取る前に複数の複雑なステップを実行する必要がある複雑な推論タスクにますます適用されています。これらのステップに適切にクレジットを割り当てることは、モデルの性能向上に不可欠です。大規模言語モデルの微調整に使用される最先端の強化学習（RL）アルゴリズムであるProximal Policy Optimization（PPO）は、クレジットの割り当てに取り組むために価値ネットワークを使用しています。ただし、価値ネットワークは、複雑な推論タスクにおいて期待される累積報酬を正確に予測する際に課題に直面し、しばしば高分散の更新と最適でないパフォーマンスにつながります。本研究では、価値ネットワークの効果を体系的に評価し、推論重視のLLMタスクにおけるその重大な欠点を明らかにし、代替ステップの比較時にほとんどランダムなベースラインを上回ることがほとんどないことを示しています。この課題に対処するために、言語環境の柔軟性を活用してバイアスのないモンテカルロベースの推定値を計算し、大規模な価値ネットワークの必要性を回避するVinePPOという直感的なアプローチを提案しています。当社の手法は、MATHおよびGSM8Kデータセット全体でPPOおよび他のRLフリーベースラインを一貫して上回り、勾配更新が少なく（最大9倍）、壁時計時間が少なく（最大3.0倍）などの結果を示しています。これらの結果は、LLMのRL微調整における正確なクレジットの割り当ての重要性を強調し、VinePPOの潜在的な優れた代替手法としての可能性を示しています。

文脈に即した文書埋め込み
Contextual Document Embeddings

Oct 3

ByJohn X. Morris, Alexander M. Rush

密な文書埋め込みは、ニューラル検索において中心的な役割を果たしています。主流のパラダイムは、個々の文書に直接エンコーダを実行して埋め込みを訓練および構築することです。本研究では、これらの埋め込みは効果的であるものの、検索の対象となる使用事例に対して暗黙的に非文脈的であると主張し、文脈化された文書埋め込みは文書と周辺文書の両方を文脈に含めるべきであり、文脈化された単語埋め込みに類似しています。我々は、文脈化された文書埋め込みのための2つの補完的な方法を提案します。第一に、文書の隣接文書をバッチ内文脈損失に明示的に組み込む代替対照学習目的。第二に、新しい文脈アーキテクチャを提案し、エンコードされた表現に隣接文書情報を明示的にエンコードします。結果は、両方の方法がいくつかの設定でバイエンコーダよりも優れたパフォーマンスを達成し、特にドメイン外での違いが顕著であることを示しています。私たちは、ハードネガティブマイニング、スコア蒸留、データセット固有の指示、GPU内例の共有、または非常に大きなバッチサイズを必要とせずに、MTEBベンチマークで最先端の結果を達成しました。私たちの方法は、対照学習データセットおよび任意のバイエンコーダにおいてパフォーマンスを向上させるために適用できます。

指示やトレーニングなしでエンドツーエンドの音声アシスタントを抽出するデータ
Distilling an End-to-End Voice Assistant Without Instruction Training Data

Oct 3

ByWilliam Held, Ella Li, Michael Ryan, Weiyan Shi, Yanzhe Zhang, Diyi Yang

SiriやGoogleアシスタントなどの音声アシスタントは、通常、音声とテキストを別々にモデル化しており、これにより音声情報が失われ、複雑さが増しています。最近の取り組みでは、教師付きファインチューニング（SFT）で訓練されたエンドツーエンドの音声大規模言語モデル（LLM）を用いてこれに対処し、テキストのみのLLMからの機能を「忘れる」モデルが生まれました。私たちの研究では、指導データを使用せずに音声LLMを訓練するための代替パラダイムを提案し、テキストのみのLLMの応答を自己監督として使用します。重要なことに、このプロセスは注釈付きの応答なしで実行できます。私たちは、私たちの蒸留音声アシスタント（DiVA）が、音声質問応答、分類、翻訳に汎化し、さらに、DiVAがQwen 2 Audioなどの最先端モデルよりもユーザーの好みにより適していることを示します。また、DiVAは、トレーニング計算量が100倍以上少ないにもかかわらず、72％の勝率を達成しています。

CLIP-MoE: CLIPのための専門家の混合物の構築に向けて、多様なマルチプレットのアップサイクリング
CLIP-MoE: Towards Building Mixture of Experts for CLIP with Diversified Multiplet Upcycling

Sep 28

ByJihai Zhang, Xiaoye Qu, Tong Zhu, Yu Cheng

近年、対照的な言語画像事前トレーニング（CLIP）は、多様な知能において基盤となっています。しかしながら、最近の研究では、CLIPの符号化プロセスにおける情報損失が著しく、CLIPは入力から粗い特徴のみを捉える傾向があることが特定されています。この欠陥は、視覚的な詳細が豊富な画像を処理する単一のCLIPモデルの能力を著しく制限しています。本研究では、CLIP向けのシンプルで効果的なモデルに依存しない戦略、Diversified Multiplet Upcycling（DMU）を提案しています。DMUは、密な事前トレーニングされたCLIPチェックポイントから異なる特徴空間を捉える一連のCLIPモデルを効果的にファインチューニングし、FFNを除くパラメータを共有します。これらのモデルは、より大きなモデル容量を持つCLIP-MoEに変換され、最小限の計算オーバーヘッドで著しく向上したパフォーマンスをもたらします。私たちの知る限り、Diversified Multiplet Upcyclingは、CLIP基盤モデルに疎に活性化されたMoEを導入する最初のアプローチです。幅広い実験は、CLIP-MoEの著しいパフォーマンスを示し、ゼロショット検索、ゼロショット画像分類タスク、および下流のMultimodal Large Language Model（MLLM）ベンチマークにおいて、ビジョンエンコーダとして機能することを示しています。さらに、Diversified Multiplet Upcyclingは、任意の密なCLIPモデルをCLIP-MoEに変換し、下流のフレームワークでの追加の適応を必要とせずに、プラグアンドプレイでCLIPをシームレスに置き換えることを可能にします。Diversified Multiplet Upcyclingを通じて、より効率的かつ効果的な多様な学習システムの開発に向けた将来の研究に貴重な示唆を提供することを目指しています。

合成編集シーケンスで言語モデルをトレーニングすることは、コード合成を改善します。
Training Language Models on Synthetic Edit Sequences Improves Code Synthesis

Oct 3

ByUlyana Piterbarg, Lerrel Pinto, Rob Fergus

ソフトウェアエンジニアは主に既存のプログラムを編集してコードを書きます。それに対して、大規模言語モデル（LLMs）は自己回帰的にプログラムを一度に合成します。これには、オープンソースの編集データが不足しているという説明があります。コード合成のための高品質な命令データがすでに不足している中、高品質な編集データはさらに不足しています。このギャップを埋めるために、LintSeqと呼ばれる合成データ生成アルゴリズムを開発しました。このアルゴリズムは、リンターを使用して既存のコードをリファクタリングし、エラーのない挿入を手続き的にサンプリングすることで、コード編集のシーケンスに変換します。それは、連続するプログラムの差分からなるテキスト文字列として編集シーケンスを出力します。LintSeqをテストするために、命令+プログラムのペアのデータセットを命令+プログラム差分シーケンスのタプルにリファクタリングします。その後、このデータセットの再ファクタリングされたバージョンと元のバージョンの両方で、2.6Bから14Bのパラメータを持つ一連の小規模LLMsを命令微調整し、コード合成のベンチマークでゼロショットのパフォーマンスを比較します。再サンプリング中、編集シーケンスを微調整したモデルは、ベースラインよりも多様なプログラムを生成し、ベンチマークカバレッジの推論時間スケーリングが向上します。例えば、HumanEval pass@50では、合成編集シーケンスに微調整された小規模LLMsは、GPT-4と競合し、ベースラインデータセットに微調整されたモデルよりも絶対スコアで+20%（+/-3%）を上回ります。最後に、コード理解のために独自の小さなLMを事前学習します。合成コード編集を微調整した小さなモデルは、デバイス上のモデルクラスにおける最先端のコード合成を実現します。150Mパラメータの編集シーケンスLMは、2倍のパラメータを持つコードモデル、CodexやAlphaCodeを含む、繰り返しサンプリングを行うかどうかに関わらず、マッチまたは上回ります。

L-CiteEval：長い文脈モデルは本当に回答のために文脈を活用しているか？
L-CiteEval: Do Long-Context Models Truly Leverage Context for Responding?

Oct 3

ByZecheng Tang, Keyan Zhou, Juntao Li, Baibei Ji, Jianye Hou, Min Zhang

長い文脈モデル（LCMs）は、近年著しい進歩を遂げ、文書要約などの長い文脈を含むタスクを処理する際にユーザーに大きな利便性を提供しています。生成された結果の忠実性がコミュニティでますます重視される中、単にLCMの出力の正確性を確保するだけでは不十分です。極めて長い文脈からの結果を人間が検証することは非常に困難です。一部の努力が長い文脈に基づいてLCMが適切に応答しているかどうかを評価しようとしていますが、これらの作業は特定のタスクに限定されているか、GPT-4などの外部評価リソースに大きく依存しています。本研究では、引用を含む長い文脈の理解のための包括的なマルチタスクベンチマークであるL-CiteEvalを紹介し、LCMの理解能力と忠実性の両方を評価することを目指しています。L-CiteEvalは、8Kから48Kまでの文脈長を対象とした多様なドメインからの11のタスクをカバーし、完全自動化された評価スイートを提供しています。11の最先端のクローズドソースおよびオープンソースのLCMを用いたテストを通じて、これらのモデルは生成された結果にわずかな違いが見られますが、オープンソースのモデルは引用の正確性と再現率の点でクローズドソースのモデルに大きく劣っていることがわかりました。現在のオープンソースのLCMは、与えられた文脈ではなく固有の知識に基づいて応答する傾向があり、実用的なアプリケーションにおけるユーザーエクスペリエンスに重大なリスクをもたらす可能性があります。また、RAGアプローチを評価し、RAGがLCMの忠実性を大幅に向上させることができるが、生成品質はわずかに低下することを観察しました。さらに、LCMの注意機構と引用生成プロセスとの相関関係を発見しました。

Open-RAG: オープンソースの大規模言語モデルを用いた強化型検索増強推論
Open-RAG: Enhanced Retrieval-Augmented Reasoning with Open-Source Large Language Models

Oct 2

ByShayekh Bin Islam, Md Asib Rahman, K S M Tozammel Hossain, Enamul Hoque, Shafiq Joty, Md Rizwan Parvez

Retrieval-Augmented Generation（RAG）は、大規模言語モデル（LLM）の事実の正確さを向上させることが示されていますが、既存の手法は、特にオープンソースのLLMを使用する際に、取得した証拠を効果的に使用するための限られた推論能力に苦しんでいます。このギャップを緩和するために、私たちは、オープンソースのLLMと組み合わせてRAGの推論能力を向上させるために設計された新しいフレームワークであるOpen-RAGを導入します。当フレームワークは、任意の密なLLMを、複雑な推論タスクを処理できるパラメータ効率の良いスパースなエキスパートの混合モデル（MoE）に変換します。Open-RAGは、関連性があるように見えるが誤解を招く誘惑的な障害をナビゲートするようモデルを独自にトレーニングします。その結果、Open-RAGは潜在的な学習を活用し、適切なエキスパートを動的に選択し、外部知識を効果的に統合して、より正確で文脈に即した応答を実現します。さらに、リトリーバルの必要性を決定し、性能向上と推論速度のトレードオフをバランスするためのハイブリッド適応リトリーバル手法を提案します。実験結果は、Llama2-7BベースのOpen-RAGが、知識集約的なさまざまなタスクにおいて、ChatGPT、Self-RAG、Command R+などの最先端のLLMおよびRAGモデルを上回ることを示しています。私たちは、当該コードとモデルをhttps://openragmoe.github.io/ でオープンソース化しています。

MedVisionLlama: 事前学習された大規模言語モデルレイヤーを活用した医用画像セグメンテーションの強化
MedVisionLlama: Leveraging Pre-Trained Large Language Model Layers to Enhance Medical Image Segmentation

Oct 3

ByGurucharan Marthi Krishna Kumar, Aman Chadha, Janine Mendola, Amir Shmuel

大規模言語モデル（LLMs）は、テキストデータでの柔軟性で知られており、正確な診断画像のための重要なタスクである医用画像セグメンテーションの向上の可能性を探るために、ますます探究されています。本研究では、事前学習されたLLMトランスフォーマーブロックを統合することで、医用画像セグメンテーション向上のためにVision Transformers（ViTs）を拡張することを探求しています。私たちのアプローチは、ViTベースのモデルのエンコーダに凍結されたLLMトランスフォーマーブロックを組み込むことで、さまざまな医用画像モダリティにわたるセグメンテーションパフォーマンスの実質的な向上をもたらします。私たちは、グローバルとローカルの特徴学習を組み合わせたハイブリッドアテンションメカニズムと、異なるスケール間で特徴を集約するためのマルチスケールフュージョンブロックを提案します。この強化されたモデルは、平均ダイススコアが0.74から0.79に向上し、精度、適合率、およびジャッカード指数の向上を含む、著しいパフォーマンスの向上を示します。これらの結果は、LLMベースのトランスフォーマーが医用画像セグメンテーションの改良に効果的であり、モデルの精度と頑健性を大幅に向上させる可能性を示しています。ソースコードと当社の実装は、以下で入手可能です：https://bit.ly/3zf2CVs

反射的木探索と自己学習による自律AIエージェントの向上
Improving Autonomous AI Agents with Reflective Tree Search and Self-Learning

Oct 2

ByXiao Yu, Baolin Peng, Vineeth Vajipey, Hao Cheng, Michel Galley, Jianfeng Gao, Zhou Yu

自律エージェントは、複雑な多段階意思決定タスクの自動化において著しい潜在能力を示しています。しかし、最先端のビジョン言語モデル（VLM）、例えばGPT-4oなどでも、特に複雑なWeb環境や長期計画タスクにおいては、人間レベルのパフォーマンスにはまだ及んでいません。これらの制限に対処するために、我々はReflective Monte Carlo Tree Search（R-MCTS）を導入します。これは新しいテスト時アルゴリズムであり、AIエージェント（例：GPT-4oによって強化されたもの）が、意思決定空間を即座に探索する能力を向上させるために設計されています。R-MCTSは、従来のMCTSを拡張することで、1）対照的な反射を組み込むことにより、エージェントが過去の相互作用から学び、探索効率を動的に向上させることができるようにし、2）信頼性のある状態評価を提供するために、複数エージェントの議論を使用します。さらに、R-MCTSが生成した木の走査を用いて、人間提供のラベルを使用せずにGPT-4oをセルフラーニングを通じて微調整することで、エージェントのパフォーマンスを向上させます。挑戦的なVisualWebArenaベンチマークでは、当社のGPT-4oベースのR-MCTSエージェントは、従来の最先端に比べて、さまざまなタスクで6％から30％の相対的な改善を達成します。さらに、テスト時の探索から得られた知識が、微調整を通じて効果的にGPT-4oに戻されることを示します。微調整されたGPT-4oは、テスト時の計算使用量を4分の1に減らしながら、R-MCTSのパフォーマンスの97％に匹敵します。さらに、定性的な結果から、微調整されたGPT-4oモデルは、環境を探索し、状態を評価し、現在の状態が成功につながらないと検出した場合には、有効な状態に戻る能力を示しています。さらに、我々の研究は、R-MCTSによるトレーニングデータ収集とテスト時の計算スケーリング特性を示しています。これらの結果は、テスト時の探索とセルフラーニングを通じて、VLMの推論および計画能力を向上させるための有望な研究方向を示唆しています。

幻覚を緩和するためのビジョン言語表現の解釈と編集
Interpreting and Editing Vision-Language Representations to Mitigate Hallucinations

Oct 3

ByNick Jiang, Anish Kachinthaya, Suzie Petryk, Yossi Gandelsman

ビジョン言語モデル（VLMs）の内部表現を調査し、モデルのサイズやトレーニングの進歩にもかかわらず、幻覚という持続的な課題に取り組みます。VLMsの内部画像表現を言語語彙に射影し、実際のオブジェクトよりも幻覚オブジェクトに対してより自信のある出力確率を観察します。さらに、これらの出力確率を使用して実際のオブジェクトを空間的に特定します。このアプローチを発展させ、幻覚を除去する知識消去アルゴリズムを導入し、画像特徴を幻覚オブジェクトの特徴に対して直交化することで幻覚を取り除きます。COOC2014データセットにおいて、モデルの潜在表現へのターゲット指向の編集が、パフォーマンスを維持しながら幻覚を最大25.7％削減できることを示します。私たちの調査結果は、VLMsの潜在表現に対するより深い理解が信頼性を向上させ、ゼロショット・セグメンテーションなどの新しい機能を可能にする方法を示しています。

MVGS: 新しい視点合成のためのマルチビュー制御ガウススプラッティング
MVGS: Multi-view-regulated Gaussian Splatting for Novel View Synthesis

Oct 2

ByXiaobiao Du, Yida Wang, Xin Yu

最近のボリュームレンダリングに関する研究、例えばNeRFや3D Gaussian Splatting（3DGS）は、学習された暗黙のニューラル放射輝度場や3Dガウス分布の支援により、レンダリングの品質と効率を大幅に向上させています。明示的な表現の上にレンダリングを行う、バニラ3DGSおよびその派生モデルは、NeRFから採用されたトレーニング中のイテレーションごとの単一ビュー監督により、リアルタイムの効率性を提供しています。その結果、特定のビューが過学習され、新規ビュー合成や3D幾何学の不正確さを引き起こすことがあります。上記の問題を解決するために、我々は新しい3DGS最適化手法を提案します。この手法には、以下の4つの重要な新しい貢献が組み込まれています。1) 従来の単一ビュートレーニングパラダイムをマルチビュートレーニング戦略に変換します。提案されたマルチビュー規制により、特定のトレーニングビューに過学習することなく、3Dガウス属性がさらに最適化されます。一般的な解決策として、さまざまなシナリオと異なるガウス変種において全体の精度を向上させます。2) 追加のビューによってもたらされる利点に着想を得て、異なる解像度に関する粗から細のトレーニング手順を導入するクロスイントリンシックガイダンススキームを提案します。3) マルチビュー規制トレーニングの上に構築された、クロスレイ密度化戦略を提案し、選択されたビューからのレイ交差領域においてより多くのガウスカーネルを密度化します。4) 密度化戦略をさらに検討した結果、特定のビューが著しく異なる場合には、密度化の効果を強化すべきであることがわかりました。この問題に対処するため、3Dガウスが適切な数に密度化されるよう促す新しいマルチビュー拡張密度化戦略を提案し、再構築の精度を向上させます。

Vinoground: 短いビデオにおける密な時間推論を通じたLMMsの精査
Vinoground: Scrutinizing LMMs over Dense Temporal Reasoning with Short Videos

Oct 3

ByJianrui Zhang, Mu Cai, Yong Jae Lee

最近、現代の大規模なマルチモーダルモデル（LMMs）が、短いビデオの理解に関連する主要な課題のほとんどを解決してきたという考えが広まっています。その結果、学術界と産業界の両方が徐々に、長尺のビデオを理解する際に提起されるより複雑な課題に注力し始めています。しかし、これが本当にそうなのでしょうか？私たちの研究によると、LMMsは依然として、短いビデオを扱う際にも多くの基本的な推論能力を欠いています。私たちは、1000の短い自然なビデオキャプションペアを含む時間的反事実的LMM評価ベンチマークであるVinogroundを紹介します。既存のLMMsは、異なるアクションやオブジェクトの変換の時間的な違いを区別するのに非常に苦労していることを示しています。例えば、最高のモデルGPT-4oは、私たちのテキストとビデオのスコアで約50%しか得られず、人間のベースラインである約90%と比較して大きな差があることが示されています。すべてのオープンソースのマルチモーダルモデルやCLIPベースのモデルは、ほとんどランダムなチャンスのパフォーマンスしか出せず、はるかに劣っています。この研究を通じて、短いビデオでの時間的推論がまだ完全に解決されていない問題であることを明らかにします。データセットと評価コードは、https://vinoground.github.io で入手可能です。

混沌の縁における知能
Intelligence at the Edge of Chaos

Oct 3

ByShiyang Zhang, Aakash Patel, Syed A Rizvi, Nianchen Liu, Sizhuang He, Amin Karbasi, Emanuele Zappala, David van Dijk

人工システムにおける知的行動の出現を探求するために、ルールベースのシステムの複雑さがモデルの能力に与える影響を調査します。当研究では、要素セルオートマトン（ECA）に焦点を当てています。ECAは、単純でありながら非常に複雑な振る舞いを生成する一次元システムです。異なる大規模言語モデル（LLM）を異なるECAで訓練することで、ルールの振る舞いの複雑さと、LLMが示す知性との関係を評価しました。その知性は、下流タスクでのパフォーマンスに反映されます。研究結果では、より高い複雑さを持つルールは、推論やチェスの着手予測タスクでのパフォーマンスを通じて示されるように、より高い知性を示すモデルにつながることが明らかになりました。均一および周期的システム、そしてしばしば高度にカオスなシステムは、下流のパフォーマンスが低くなる結果となりました。これにより、知性に有益な複雑さのベストスポットが浮かび上がりました。知性は複雑さを予測する能力から生じると推測し、知性を創造するには複雑さへの露出だけが必要かもしれないと考えています。

Synthio: 合成データを用いた小規模オーディオ分類データセットの拡張
Synthio: Augmenting Small-Scale Audio Classification Datasets with Synthetic Data

Oct 2

BySreyan Ghosh, Sonal Kumar, Zhifeng Kong, Rafael Valle, Bryan Catanzaro, Dinesh Manocha

Synthioは、小規模なオーディオ分類データセットを合成データで拡張する革新的なアプローチを提案します。私たちの目標は、ラベル付きデータが限られている状況下でオーディオ分類の精度を向上させることです。従来のデータ拡張技術は、人工的な変換（例：ランダムノイズの追加やセグメントのマスキング）を適用するが、実世界のオーディオの真の多様性を捉えるデータを作成するのに苦労しています。この課題に対処するため、我々はテキストからオーディオ（T2A）拡散モデルから生成された合成オーディオでデータセットを拡張することを提案します。ただし、効果的な拡張を合成することは難しいです。なぜなら、生成されたデータは小規模データセットと音響的に整合性が取れるだけでなく、十分な構成的多様性を持つ必要があるからです。最初の課題に対処するために、T2Aモデルの生成を小規模データセットと一致させるために選好最適化を使用します。これにより、生成されたデータの音響特性が小規模データセットと整合性を保つことが確実となります。第二の課題に対処するために、大規模言語モデルの推論能力を活用した新しいキャプション生成技術を提案します。これにより、多様で意味のあるオーディオキャプションを生成し、その品質を反復的に改善します。生成されたキャプションは、一致したT2Aモデルを促すために使用されます。Synthioを10つのデータセットと4つのシミュレートされた限られたデータ設定で広範囲に評価しました。結果は、弱くキャプション付きのAudioSetでのみ訓練されたT2Aモデルを使用して、我々の手法がすべてのベースラインを0.1%〜39%常に上回ることを示しています。

Robin3D：ロバストなインストラクションチューニングを通じた3D大規模言語モデルの改善
Robin3D: Improving 3D Large Language Model via Robust Instruction Tuning

Sep 30

ByWeitai Kang, Haifeng Huang, Yuzhang Shang, Mubarak Shah, Yan Yan

最近の3D大規模言語モデル（3DLLMs）の進歩は、3Dの現実世界で汎用エージェントを構築する可能性を示していますが、高品質で頑健な命令に従うデータが不足しているため、3DLLMsの限られた識別力と汎化能力に課題が残っています。本論文では、私たちの新しいデータエンジンで生成された大規模な命令に従うデータでトレーニングされた強力な3DLLMであるRobin3Dを紹介します。RIGは、2つの主要な命令データを生成します。1つは、モデルの識別理解を向上させるためにネガティブとポジティブなサンプルを混在させたAdversarial Instruction-followingデータです。もう1つは、モデルの汎化を向上させるためにさまざまな命令スタイルを含むDiverse Instruction-followingデータです。その結果、344KのAdversarialサンプル、508KのDiverseサンプル、165Kのベンチマークトレーニングセットサンプルからなる100万の命令に従うデータを構築します。これらの複雑な命令をよりよく処理するために、Robin3Dはまず、Relation-Augmented Projectorを組み込んで空間理解を向上させ、次にID-Feature Bondingを介してオブジェクトの参照と接地能力を強化します。Robin3Dは、タスク固有の微調整を必要とせずに、広く使用されている5つの3Dマルチモーダル学習ベンチマーク全体で以前の手法を一貫して上回ります。特に、接地タスク（Multi3DRefer）で7.8％の改善とキャプション付けタスク（Scan2Cap）で6.9％の改善を達成しています。

大規模言語モデルにおけるゼロショットクロスリンガル転送のためのレイヤー交換
Layer Swapping for Zero-Shot Cross-Lingual Transfer in Large Language Models

Oct 2

ByLucas Bandarkar, Benjamin Muller, Pritish Yuvraj, Rui Hou, Nayan Singhal, Hongjiang Lv, Bing Liu

モデルのマージング、例えばモデルの統合は、同じアーキテクチャを持つ異なるモデルを、追加のトレーニングなしに組み合わせる実践です。この研究では、非英語圏のターゲットタスクに対して大規模言語モデル（LLMs）を微調整する際の困難に取り組むモデルのマージング手法を提案します。ここでは、数学的推論に焦点を当て、言語と数学の能力を組み合わせることで、言語間および数学間の転移を容易にします。同じ事前学習済みモデルから始め、英語の数学指導データと対象言語の一般的な指導データに基づいてそれぞれ別個の「専門家」を微調整します。その後、数学専門家のトランスフォーマーレイヤーの上位と下位を、言語専門家のレイヤーと直接置き換えることで、結果として対象言語での数学パフォーマンスが向上します。結果として得られるマージドモデルは、数学ベンチマークであるMGSMにおいて、数学指導データが不足している4つの主要言語で、他の専門家や他のマージング手法よりも10%優れています。さらに、このレイヤーの交換は、各専門家の微調整中に最も重要なパラメータの変更を解釈的に分析することに基づいているため、シンプルでコストがかからず直感的です。この方法でLLMsを再構成して言語間転移を成功させる能力は、将来的にモデルの専門知識を組み合わせ、モジュラーソリューションを作成し、言語間で推論能力を後から転送する可能性を開くものです。

データからゲームの潜在的なルールを学習する：チェスの物語
Learning the Latent Rules of a Game from Data: A Chess Story

Oct 3

ByBen Fauber

我々は、数百万のパラメータを持つ小規模な事前学習済み基盤生成言語モデルが、プロセスに関連するデータからプロセスの潜在的なルールを学習することができることを示しています。シュテファン・ツヴァイクの中編小説「シャハの小説」（英語では「The Royal Game」としても知られています）に触発され、28Mおよび125Mのパラメータを持つ事前学習済み基盤小規模言語モデル（SLM）が、1,000から1,000,000の例を用いて指示fine-tuningされ、チェスのルールを学習し、合法的な手を提案し、チェスの問題を正確に解決できることを示します。また、連続した言語モデルのfine-tuningエポックが改善された結果に与える影響を探り、指示fine-tuning例の数を増やすことでモデルの幻覚を減少させることを示しています。

SciPrompt：科学トピックの細かいカテゴリ分類のための知識拡張型プロンプティング
SciPrompt: Knowledge-augmented Prompting for Fine-grained Categorization of Scientific Topics

Oct 2

ByZhiwen You, Kanyao Han, Haotian Zhu, Bertram Ludäscher, Jana Diesner

プロンプトベースのファインチューニングは、テキスト分類を含むさまざまなタスクにおいて、事前学習された言語モデルにエンコードされた情報を引き出すための重要な手法となっています。マルチクラス分類タスクにおいて、低リソースの状況下でのプロンプトベースのファインチューニングは、完全なファインチューニング手法と同等の性能レベルを達成しています。従来の研究では、クラフトされたプロンプトテンプレートやバーバライザを使用して、ラベル用語空間からクラス空間へのマッピングを行い、分類問題をマスクされた言語モデリングタスクとして解決してきました。しかし、ドメイン間およびファイングレインドなプロンプトベースのファインチューニングにおいて、自動的に拡張されたバーバライザを用いた研究は未だに未開拓の領域です。これは、バーバライザ用のドメインラベル用語を手動で選択する難しさとコストが原因であり、これにはドメイン専門知識を持つ人間が必要とされます。この課題に対処するために、我々はSciPromptを導入します。これは、低リソースのテキスト分類タスクに関連する科学的トピックに自動的に関連する用語を取得するために設計されたフレームワークです。このために、科学文献の文脈内で意味的に関連し、特定のドメインに属するラベル用語をバーバライザの拡張に選択します。さらに、我々は、新しいバーバライゼーション戦略を提案します。これは、相関スコアを追加の重みとして使用して、モデルチューニング中に言語モデルの予測性能を向上させます。我々の手法は、特にファイングレインドおよび新興の科学的トピックの分類において、少数およびゼロショットの設定下で、科学的テキスト分類タスクにおいて、最先端のプロンプトベースのファインチューニング手法を凌駕しています。

AI研究論文デイリー

翻訳付きの日次キュレーションされたAI研究論文

大規模な画像キャプションデータを再検討し、マルチモーダル基盤モデルの事前学習を行う
Revisit Large-Scale Image-Caption Data in Pre-training Multimodal Foundation Models

Oct 3

ByZhengfeng Lai, Vasileios Saveris, Chen Chen, Hong-You Chen, Haotian Zhang, Bowen Zhang, Juan Lao Tebar, Wenze Hu, Zhe Gan, Peter Grasch, Meng Cao, Yinfei Yang