AI研究論文デイリー

翻訳付きの日次キュレーションされたAI研究論文

VidEgoThink：具体的AIのためのエゴセントリックビデオ理解能力の評価
VidEgoThink: Assessing Egocentric Video Understanding Capabilities for Embodied AI

Oct 15

BySijie Cheng, Kechen Fang, Yangyang Yu, Sicheng Zhou, Bohao Li, Ye Tian, Tingguang Li, Lei Han, Yang Liu

最近のMulti-modal Large Language Models（MLLMs）の進歩により、具体的AIの応用に新たな可能性が開かれました。以前の研究であるEgoThinkを基盤として、我々はVidEgoThinkを導入し、自己中心的なビデオ理解能力を評価する包括的なベンチマークを提供します。MLLMsと具体的AIにおける低レベル制御とのギャップを埋めるために、ビデオに関する質問応答、階層計画、視覚的な基盤、報酬モデリングという4つのキーと関連するタスクを設計します。手作業の注釈コストを最小限に抑えるために、Ego4Dデータセットに基づく自動データ生成パイプラインを開発し、GPT-4oの事前知識と多面的な能力を活用します。その後、3人の人間の注釈者が生成されたデータをフィルタリングして多様性と品質を確保し、VidEgoThinkベンチマークを作成します。APIベースのMLLMs、オープンソースの画像ベースのMLLMs、およびオープンソースのビデオベースのMLLMsの3種類のモデルを用いて、広範な実験を実施します。実験結果によると、GPT-4oを含むすべてのMLLMsは、自己中心的なビデオ理解に関連するすべてのタスクで低い性能を示しました。これらの結果から、基盤モデルは、具体的AIにおける第一者視点のシナリオに効果的に適用するためには、依然として大幅な進歩が必要であることが示唆されます。結論として、VidEgoThinkは、MLLMsを用いた自己中心的なビジョンに関する研究トレンドを反映しており、人間の能力に似た、複雑な現実世界環境での積極的な観察と相互作用を可能にします。

HumanEval-V: コーディングタスクを通じて大規模なマルチモーダルモデルの視覚理解および推論能力を評価する
HumanEval-V: Evaluating Visual Understanding and Reasoning Abilities of Large Multimodal Models Through Coding Tasks

Oct 16

ByFengji Zhang, Linquan Wu, Huiyu Bai, Guancheng Lin, Xiao Li, Xiao Yu, Yue Wang, Bei Chen, Jacky Keung

コーディングタスクは、大規模言語モデル（LLM）を評価する上で貴重なものとなっており、高レベルの指示の理解、複雑な推論、および機能プログラムの実装が求められます。これらは、人工汎用知能を推進するための中核的な能力です。大規模多モーダルモデル（LMM）の進展にもかかわらず、視覚認識と理解能力を備えたLLMを拡張するLMMには、特に視覚推論を重視するタスクに厳密にこれらのモデルを評価するためのコーディングベンチマークが不足しています。このギャップを埋めるために、私たちはHumanEval-Vを導入しました。これは、視覚理解と推論能力を評価するために特別に設計された新しい軽量ベンチマークです。HumanEval-Vには、CodeForcesやStack Overflowなどのプラットフォームから派生した、慎重に作成された入門レベルのPythonコーディングタスク108件が含まれています。各タスクは、元の問題の文脈とアルゴリズムパターンを変更して適応し、ソースとの区別を確保するために視覚要素を再描画して潜在的なデータ漏洩を防ぎます。LLMは、提供された視覚的文脈と、タスク要件を概説する事前定義されたPython関数シグネチャに基づいてコードソリューションを完成させる必要があります。各タスクには、モデル生成ソリューションの徹底的かつ信頼性の高い評価を確保するために、入念に作成されたテストケースが備えられています。HumanEval-Vを使用して19の最先端LLMを評価し、重要な課題を明らかにしました。GPT-4oなどのプロプライエタリモデルは、1位合格率がわずか13％、10位合格率が36.4％に過ぎず、700億パラメータを持つオープンウェイトモデルは1位合格率が4％未満でした。削減研究は、現在のLLMの視覚推論とコーディング能力の限界を明らかにしました。これらの結果は、LLMの能力を向上させるための将来の研究の重要な分野を強調しています。私たちは、当該コードとベンチマークをhttps://github.com/HumanEval-V/HumanEval-V-Benchmarkでオープンソース化しています。

DocLayout-YOLO: 多様な合成データとグローバルからローカルへの適応的知覚を通じて文書レイアウト解析を強化する
DocLayout-YOLO: Enhancing Document Layout Analysis through Diverse Synthetic Data and Global-to-Local Adaptive Perception

Oct 16

ByZhiyuan Zhao, Hengrui Kang, Bin Wang, Conghui He

実世界の文書理解システムにおいて、文書レイアウト解析は重要ですが、速度と精度の間で難しいトレードオフに直面します。テキストと視覚的特徴を両方活用する多モーダル手法は高い精度を達成しますが、著しい遅延に苦しむ一方、視覚的特徴にのみ依存する単一モーダル手法は、精度を犠牲にして処理速度を向上させます。このジレンマに対処するために、私たちはDocLayout-YOLOを導入します。この新しいアプローチは、事前トレーニングとモデル設計の両方で文書固有の最適化を通じて、速度の利点を維持しつつ精度を向上させます。堅牢な文書事前トレーニングのために、Mesh-candidate BestFitアルゴリズムを導入し、文書合成を2次元ビンパッキング問題としてフレーム化し、大規模かつ多様なDocSynth-300Kデータセットを生成します。DocSynth-300Kデータセットでの事前トレーニングは、さまざまな文書タイプにおけるファインチューニングのパフォーマンスを大幅に向上させます。モデルの最適化に関しては、Global-to-Local Controllable Receptive Moduleを提案し、文書要素の多様なスケール変動をより適切に処理できるようにします。さらに、異なる文書タイプにわたるパフォーマンスを検証するために、DocStructBenchという複雑で挑戦的なベンチマークを導入します。ダウンストリームデータセットでの包括的な実験により、DocLayout-YOLOが速度と精度の両方で優れていることが示されます。コード、データ、モデルはhttps://github.com/opendatalab/DocLayout-YOLOで入手可能です。

マルチモダリティの呪い：言語、視覚、音声を横断する大規模マルチモーダルモデルの幻覚の評価
The Curse of Multi-Modalities: Evaluating Hallucinations of Large Multimodal Models across Language, Visual, and Audio

Oct 16

BySicong Leng, Yun Xing, Zesen Cheng, Yang Zhou, Hang Zhang, Xin Li, Deli Zhao, Shijian Lu, Chunyan Miao, Lidong Bing

最近の大規模多モーダルモデル（LMMs）の進歩は、さまざまなタスクでの性能を大幅に向上させ、ビデオやオーディオなどの追加のモダリティをさらに統合する取り組みが続いています。しかし、ほとんどの既存のLMMは幻覚に脆弱であり、事実に基づく多モーダル入力と生成されたテキスト出力との間の不一致が、さまざまな実世界シナリオでの適用範囲を制限しています。本論文では、言語、視覚、およびオーディオという3つの最も一般的なモダリティを含むLMMにおける幻覚の初の体系的調査を提案します。当研究により、幻覚の2つの主要な要因が明らかになりました：単一モーダル事前確率への過度の依存と、見かけのモダリティ間相関。これらの課題に対処するために、幻覚を包括的に評価するベンチマークである「多モダリティの呪い（CMM）」を導入し、LMMにおける幻覚の根本的な問題の詳細な分析を提供します。当研究の結果は、モダリティ統合の不均衡やトレーニングデータからのバイアスなど、主要な脆弱性を明らかにし、バランスの取れたクロスモーダル学習と幻覚緩和戦略の強化の必要性を強調しています。私たちの観察と研究結果に基づき、LMMの信頼性を向上させる可能性のある研究方向を提案しています。

計画における言語エージェントの障壁の解明
Revealing the Barriers of Language Agents in Planning

Oct 16

ByJian Xie, Kexun Zhang, Jiangjie Chen, Siyu Yuan, Kai Zhang, Yikai Zhang, Lei Li, Yanghua Xiao

自律計画は人工知能の創成以来、継続的に追求されてきました。厳選された問題解決者に基づいて、初期の計画エージェントは特定のタスクに対する正確な解決策を提供できましたが、一般化には欠けていました。大規模言語モデル（LLMs）の登場とその強力な推論能力により、与えられたタスクに対する合理的な解決策を自動生成することで、自律計画への関心が再燃しています。しかし、先行研究と私たちの実験によると、現在の言語エージェントはまだ人間レベルの計画能力を欠いていることが示されています。最先端の推論モデルであるOpenAI o1でさえ、複雑な実世界の計画ベンチマークのうちの1つでわずか15.6%しか達成していません。これは重要な問いを浮かび上がらせます：言語エージェントが人間レベルの計画を達成するのを妨げているのは何か？既存の研究はエージェントの計画における性能の低さを強調していますが、それらに対処するために提案された戦略の根本的な問題やメカニズム、制約、限界が不十分に理解されています。本研究では、特徴の帰属研究を適用し、エージェントの計画を妨げる2つの主要要因を特定します：制約の役割の限定と質問の影響の低下。また、現在の戦略がこれらの課題を緩和するのに役立つものの、それらを完全に解決するわけではないことがわかり、エージェントが人間レベルの知能に到達するまでにはまだ長い道のりが残されていることを示しています。

大規模言語モデルの統合に向けたモデル類似性の探索
Exploring Model Kinship for Merging Large Language Models

Oct 16

ByYedi Hu, Yunzhi Yao, Ningyu Zhang, Shumin Deng, Huajun Chen

モデルの統合は、大規模言語モデル（LLM）の機能と効率を向上させるための主要技術の1つとなっています。ただし、任意の2つのモデルを統合する際の期待される性能向上と原則に関する理解は限られています。本研究では、生物学的進化に類似した、LLM間の類似性や関連性の程度である「モデルの親族関係」を導入します。包括的な実証分析により、モデルの親族関係とモデル統合後の性能向上との間に一定の関係があることがわかりました。これは、候補モデルの選択を導くのに役立ちます。この着想を受けて、新しいモデル統合戦略を提案します。モデルの親族関係を考慮したTop-k Greedy Mergingは、ベンチマークデータセットでより優れた性能を発揮できます。具体的には、モデルの親族関係を基準とすることで、モデル統合を継続的に行うことができ、モデル進化の劣化（局所最適解）を緩和するのに役立ちます。また、モデルの親族関係はこれらの罠を回避するための指針となり得ます。コードはhttps://github.com/zjunlp/ModelKinship で入手可能です。

行列核ノルムを用いた大規模言語モデルの評価
Large Language Model Evaluation via Matrix Nuclear-Norm

Oct 14

ByYahan Li, Tingyu Xia, Yi Chang, Yuan Wu

大規模言語モデル（LLM）が進化し続ける中、情報の圧縮能力や冗長性の削減能力を評価するために効率的な評価メトリクスが重要です。従来のメトリクスである行列エントロピーなどは貴重な洞察を提供しますが、特異値分解（SVD）による\( O(n^3) \)の時間計算量のため、大規模モデルでは計算コストが高くなります。この問題を緩和するために、行列核ノルムを導入しました。これはLLMのデータ圧縮能力を定量化するメトリクスとして機能するだけでなく、予測の識別性と多様性の両方を捉えるための行列ランクの凸近似を提供します。核ノルムをさらに\( L_{1,2}-\text{ノルム} \)で近似することで、モデルの情報圧縮能力を効果的に評価できます。このアプローチにより、時間計算量を\( O(n^2) \)に削減し、SVDの計算を不要にします。その結果、Matrix Nuclear-Normは、CEREBRAS-GPTモデルにおいて111Mから6.7Bにサイズが増加するにつれて、Matrix Entropyよりも8〜24倍高速な速度を実現します。この性能差は、Pythiaなど他のモデルでのテストで検証され、より大きなモデルではより顕著になります。さらに、ベンチマークやモデルの応答に関する評価により、提案されたMatrix Nuclear-Normが、LLMのパフォーマンスを評価するための信頼性があり、スケーラブルで効率的なツールであり、精度と計算効率のバランスを取っていることが確認されました。コードはhttps://github.com/MLGroupJLU/MatrixNuclearNormで入手可能です。

連続時間一貫性モデルの単純化、安定化、およびスケーリング
Simplifying, Stabilizing and Scaling Continuous-Time Consistency Models

Oct 14

ByCheng Lu, Yang Song

一貫性モデル（CM）は、高速サンプリングに最適化された拡散ベースの生成モデルの強力なクラスです。ほとんどの既存のCMは、追加のハイパーパラメータを導入し、離散化エラーに対して脆弱である離散化されたタイムステップを使用してトレーニングされています。一方、連続時間の定式化はこれらの問題を緩和できますが、トレーニングの不安定性によって成功が制限されています。これを解決するために、我々は、拡散モデルとCMの以前のパラメータ化を統一し、不安定性の根本原因を特定する簡略化された理論的枠組みを提案します。この分析に基づいて、拡散プロセスのパラメータ化、ネットワークアーキテクチャ、およびトレーニング目標の主要な改善を導入します。これらの変更により、我々は画像ネット512x512で15億のパラメータに達する前例のないスケールで連続時間CMをトレーニングできるようになりました。提案されたトレーニングアルゴリズムは、わずか2つのサンプリングステップを使用して、CIFAR-10で2.06、ImageNet 64x64で1.48、ImageNet 512x512で1.88のFIDスコアを達成し、最高の既存の拡散モデルとのFIDスコアの差を10％以内に縮小させました。

テキストから画像への拡散モデルにおける長文のアラインメントの改善
Improving Long-Text Alignment for Text-to-Image Diffusion Models

Oct 15

ByLuping Liu, Chao Du, Tianyu Pang, Zehan Wang, Chongxuan Li, Dong Xu

テキストから画像への変換（T2I）拡散モデルの急速な進化により、与えられたテキストから前例のない結果を生成することが可能になりました。しかし、テキスト入力が長くなると、CLIPなどの既存のエンコーディング手法に制限が生じ、生成された画像を長いテキストに整列させることが困難になります。これらの問題に対処するために、私たちはLongAlignを提案します。LongAlignには、長いテキストを処理するためのセグメントレベルのエンコーディング手法と、効果的な整列トレーニングのための分解された選好最適化手法が含まれています。セグメントレベルのエンコーディングでは、長いテキストが複数のセグメントに分割され、個別に処理されます。この手法は、事前学習されたエンコーディングモデルの最大入力長の制限を克服します。選好最適化において、私たちは分解されたCLIPベースの選好モデルを提供し、拡散モデルを微調整します。具体的には、T2I整列にCLIPベースの選好モデルを活用するために、そのスコアリングメカニズムに深入りし、選好スコアをテキストに関連する部分（T2I整列を測定する）とテキストに関係のない部分（人間の選好の他の視覚的側面を評価する）の2つの要素に分解できることを見出しました。さらに、テキストに関係のない部分が微調整中の一般的な過学習問題に寄与することがわかりました。この問題に対処するために、これら2つの要素に異なる重みを割り当てるリウェーティング戦略を提案し、過学習を軽減し、整列を向上させます。私たちの手法を用いて、512回の512 Stable Diffusion（SD）v1.5を約20時間微調整した結果、微調整されたSDは、PixArt-alphaやKandinsky v2.2などの強力な基盤モデルを上回るT2I整列で優れた性能を発揮します。コードはhttps://github.com/luping-liu/LongAlignで入手可能です。

DyVo: エンティティを用いた学習された疎な検索のための動的語彙
DyVo: Dynamic Vocabularies for Learned Sparse Retrieval with Entities

Oct 10

ByThong Nguyen, Shubham Chatterjee, Sean MacAvaney, Iain Mackie, Jeff Dalton, Andrew Yates

学習済みスパース検索（LSR）モデルは、しばしばエンティティを意味のない断片に分割するトランスフォーマーからの語彙を使用します。エンティティの分割は検索精度を低下させ、トレーニングデータに含まれていない最新の世界知識を取り込むモデルの能力を制限します。本研究では、LSR語彙をWikipediaの概念とエンティティで拡張し、曖昧さを効果的に解消し、進化する知識に適応するためのモデルを可能にします。当社のアプローチの中心には、既存のエンティティ埋め込みとクエリやドキュメントに関連するエンティティを特定するエンティティ検索コンポーネントを活用するダイナミック語彙（DyVo）ヘッドがあります。私たちはDyVoヘッドを使用してエンティティの重みを生成し、それらをワードピースの重みとマージして、逆索引を使用した効率的なインデックス作成と検索のための共同表現を作成します。3つのエンティティ豊富な文書ランキングデータセットを対象とした実験では、結果として得られたDyVoモデルが最先端のベースラインを大幅に上回ることが示されました。

制御可能な安全整列：多様な安全要件への推論時適応
Controllable Safety Alignment: Inference-Time Adaptation to Diverse Safety Requirements

Oct 11

ByJingyu Zhang, Ahmed Elgohary, Ahmed Magooda, Daniel Khashabi, Benjamin Van Durme

現在の大規模言語モデル（LLM）の安全アラインメントのパラダイムは、一括適用のアプローチに従っています：モデルは、モデル提供者によって安全でないと見なされたコンテンツとのやり取りを拒否します。このアプローチは、異なる文化や地域での社会的規範の違いに対応する柔軟性に欠けています。さらに、ユーザーは多様な安全性ニーズを持っており、静的な安全基準を持つモデルは使用に制限があり、再アラインメントするにはコストがかかりすぎるため、有用ではありません。私たちは、再トレーニングを必要とせずにモデルを多様な安全要件に適応させるためのフレームワークであるControllable Safety Alignment（CoSA）を提案しています。固定されたモデルをアラインメントする代わりに、システムプロンプトの一部として提供される、望ましい安全性行動の自由形式の自然言語記述である安全設定に従うようにモデルをアラインメントします。モデルの安全性行動を調整するために、認証されたユーザーは推論時にそのような安全設定を変更するだけで済みます。そのために、様々な安全設定に簡単に適応するためのLLMをアラインメントするためのデータ中心の手法であるCoSAlignを提案します。さらに、助けになることと構成された安全性の両方を考慮した新しいコントロール可能性評価プロトコルを考案し、それらをCoSA-Scoreにまとめ、多様な安全要件と対応する評価プロンプトを持つ実世界のLLMユースケースから成る人間が作成したベンチマークであるCoSApienを構築します。 CoSAlignは、インコンテキストアラインメントを含む強力なベースラインに比べて、コントロール可能性の大幅な向上をもたらすことを示しています。私たちのフレームワークは、LLMにおける多元的な人間の価値観のより良い表現と適応を促進し、それにより実用性を高めます。

ProSA: LLMのプロンプト感度の評価と理解
ProSA: Assessing and Understanding the Prompt Sensitivity of LLMs

Oct 16

ByJingming Zhuo, Songyang Zhang, Xinyu Fang, Haodong Duan, Dahua Lin, Kai Chen

大規模言語モデル（LLMs）は、さまざまなタスクで印象的な能力を示していますが、そのパフォーマンスは使用されるプロンプトに非常に敏感です。この変動性は、正確な評価とユーザー満足に課題を提起します。現在の研究では、しばしばインスタンスレベルのプロンプトの変化と主観的評価への影響が見過ごされています。これらの課題に対処するために、私たちはLLMsにおけるプロンプトの感度を評価し理解するために設計されたProSAを紹介します。ProSAには、新しい感度メトリックであるPromptSensiScoreが組み込まれており、デコーディングの信頼度を活用して基本的なメカニズムを明らかにします。複数のタスクにわたる包括的な研究により、プロンプトの感度がデータセットやモデルによって変動し、大規模モデルが強化された堅牢性を示すことが明らかになりました。われわれは、フューショットの例がこの感度の問題を軽減し、主観的評価も特に複雑で推論志向のタスクにおいてプロンプトの感度に影響を受けやすいことを観察しています。さらに、われわれの調査結果は、より高いモデルの信頼度がプロンプトの堅牢性の向上と相関していることを示しています。この研究がLLMsのプロンプト感度を研究する上で有益なツールとなると考えています。プロジェクトはこちらで公開されています：https://github.com/open-compass/ProSA。

ZipVL: 動的トークンの疎な化とKVキャッシュの圧縮を用いた効率的な大規模ビジョン言語モデル
ZipVL: Efficient Large Vision-Language Models with Dynamic Token Sparsification and KV Cache Compression

Oct 11

ByYefei He, Feng Chen, Jing Liu, Wenqi Shao, Hong Zhou, Kaipeng Zhang, Bohan Zhuang

大規模ビジョン言語モデル（LVLMs）の効率は、特に高解像度の画像やビデオを含むシナリオにおいて、プリフィルフェーズ中のアテンションメカニズムの計算的ボトルネックとデコーディングフェーズ中のキー・バリュー（KV）キャッシュのメモリボトルネックによって制約されています。視覚コンテンツはしばしば大幅な冗長性を示し、これによりLVLMs内で非常に疎なアテンションマップが生成されます。この疎さは、さまざまなアプローチを用いてアテンション計算を加速したり、KVキャッシュを圧縮したりするために活用できます。ただし、ほとんどの研究はこれらのボトルネックのうちの1つにのみ焦点を当てており、異なるレイヤーやタスクに関する疎さの動的調整を適切にサポートしていません。本論文では、LVLMs向けの効率的な推論フレームワークであるZipVLを提案し、重要なトークンの動的比率割り当て戦略を通じて計算およびメモリのボトルネックの両方を解決します。この比率は、固定されたハイパーパラメータではなく、レイヤー固有のアテンションスコアの分布に基づいて適応的に決定されるため、より複雑なタスクに対して高いパフォーマンスを維持しながら、より簡単なタスクの効率を向上させます。次に、正規化されたアテンションスコアに基づいて重要なトークンを選択し、プリフィルフェーズで重要なトークンのみにアテンションメカニズムを実行して計算を加速します。デコーディングフェーズでのメモリボトルネックを緩和するために、重要なトークンのキャッシュには高ビット量子化を適用し、重要でないトークンのキャッシュには低ビット量子化を適用します。実験により、ZipVLがLongVA-7Bモデルに対するVideo-MMEベンチマークで、プリフィルフェーズを2.6倍加速し、GPUメモリ使用量を50.0%削減し、わずか0.2%の精度低下でLVLMsの生成効率を効果的に向上させることが示されました。

ChroKnowledge: 言語モデルの複数ドメインにおける時系列知識の解明
ChroKnowledge: Unveiling Chronological Knowledge of Language Models in Multiple Domains

Oct 13

ByYein Park, Chanwoong Yoon, Jungwoo Park, Donghyeon Lee, Minbyul Jeong, Jaewoo Kang

大規模言語モデル（LLMs）は、私たちの生活の多くの側面に大きな影響を与えています。ただし、それらの時系列的な知識を評価し確保することは依然として困難です。既存の手法は、知識の累積性に対処する際にしばしば単一の時間スタンプに頼っており、不十分である。この課題を克服するために、私たちはChroKnowBenchを導入します。これは、複数のドメイン、時間依存性、時間的状態にわたる時系列的に蓄積された知識を評価するために設計されたベンチマークデータセットです。当該ベンチマークは、進化する知識（例：科学的発見、修正された法律）と一定の知識（例：数学的真理、常識的事実）の区別を行います。このベンチマークに基づいて、私たちはChroKnowledge（知識の時系列的分類）を提案します。これは、非パラメトリックな時系列的知識を評価および更新するための新しいサンプリングベースのフレームワークです。私たちの評価によると、（1）モデルのトレーニングに使用されたデータ形式によって時間的知識を引き出す能力は異なります。（2）LLMsは、一部の知識を部分的に回想したり、時間的境界で切り捨てたりすることがあり、すべての知識の側面を正しく回想するわけではありません。そのため、私たちはChroKnowPromptを適用します。これは、周囲の時間範囲を段階的にたどることで時系列的知識を引き出すための詳細なプロンプトです。私たちは、このフレームワークがバイオメディカル領域（+11.9％）および一般領域（+2.8％）の両方で全体的な知識を更新するのに成功し、時間的知識を洗練する効果を示しています。この非パラメトリックなアプローチは、オープンソースモデルだけでなく、プロプライエタリなLLMsでも知識の更新を可能にし、モデルタイプにわたる包括的な適用性を確保します。私たちはChroKnowPromptの時間的特性に基づいた包括的な分析を行い、様々なモデルが内在的な時間的知識を引き出す潜在能力を検証しています。

ニューラルメタモルフォーゼ
Neural Metamorphosis

Oct 10

ByXingyi Yang, Xinchao Wang

本論文では、Neural Metamorphosis（NeuMeta）と呼ばれる新しい学習パラダイムを紹介し、自己変形可能なニューラルネットワークを構築することを目指しています。異なるアーキテクチャやサイズのために別々のモデルを作成する代わりに、NeuMetaはニューラルネットワークの連続的な重み多様体を直接学習します。訓練されると、我々は再トレーニングすることなく、以前に見たことのない構成に対しても、多様体から直接任意のサイズのネットワークの重みをサンプリングできます。この野心的な目標を達成するために、NeuMetaはハイパーネットワークとしてニューラル暗黙関数を訓練します。これらはモデル空間内の座標を入力とし、対応する重み値を多様体上に生成します。言い換えれば、予測された重みがさまざまなモデルサイズで優れた性能を発揮するように、暗黙関数が学習されます。これらのモデルを訓練する際に、学習された多様体の滑らかさが最終的なパフォーマンスに密接に関連していることに気づきました。この滑らかさを向上させるために、2つの戦略を採用しています。まず、最短ハミルトン経路問題を解決することで、モデル内の滑らかさを達成するために重み行列を置換します。さらに、暗黙関数の訓練時に入力座標にノイズを加えることで、さまざまなサイズのモデルが一貫した出力を示すようにしています。このように、NeuMetaはさまざまなネットワーク構成のパラメータを合成する上で有望な結果を示しています。画像分類、意味的セグメンテーション、画像生成の幅広いテストにより、NeuMetaは75％の圧縮率でも完全サイズのパフォーマンスを維持することが示されました。

画像自己回帰モデリングのための潜在空間の安定化：統一された視点
Stabilize the Latent Space for Image Autoregressive Modeling: A Unified Perspective

Oct 16

ByYongxin Zhu, Bocheng Li, Hang Zhang, Xin Li, Linli Xu, Lidong Bing

潜在ベースの画像生成モデル、例えば潜在拡散モデル（LDM）やマスク画像モデル（MIM）は、画像生成タスクにおいて注目すべき成功を収めています。これらのモデルは通常、VQGANやVAEのような再構成オートエンコーダを活用して、ピクセルをよりコンパクトな潜在空間にエンコードし、データ分布をピクセルではなく潜在空間から学習します。しかしながら、この手法は重要な問題を提起します。それは本当に最適な選択肢なのでしょうか？この疑問に対処するために、我々は興味深い観察から始めます。同じ潜在空間を共有しているにもかかわらず、自己回帰モデルは画像生成においてLDMやMIMに大きく遅れを取っているという結果があります。この発見は、自然言語処理の分野とは対照的であり、自己回帰モデルGPTが優位な存在を築いているという点が挙げられます。この食い違いに対処するために、潜在空間と生成モデルの関係について統一的な視点を提案し、画像生成モデリングにおける潜在空間の安定性を重視します。さらに、画像生成モデリングにおける潜在空間を安定化するためのシンプルかつ効果的な離散画像トークナイザを提案します。実験結果は、当社のトークナイザ（DiGIT）を用いた画像自己回帰モデリングが、次のトークン予測原則により画像理解と画像生成の両方に利益をもたらすことを示しています。この原則はGPTモデルにとっては本質的に簡単ですが、他の生成モデルにとっては難しいものです。驚くべきことに、画像用のGPTスタイルの自己回帰モデルが初めてLDMを上回り、モデルサイズを拡大するとGPTと同様の大幅な改善が見られます。我々の発見は、最適化された潜在空間と離散トークナイゼーションの統合が画像生成モデルの能力向上にどれほど貢献するかを強調しています。コードはhttps://github.com/DAMO-NLP-SG/DiGIT で入手可能です。

ファインチューニングとモデルマージングを通じて普遍的特徴の追跡
Tracking Universal Features Through Fine-Tuning and Model Merging

Oct 16

ByNiels Horn, Desmond Elliott

異なるテキストのドメインで微調整されたモデル間で、特徴がどのように現れ、消え、持続するかを研究しています。より具体的には、BabyLMコーパスとThe StackからのPythonコードの組み合わせでトレーニングされた基本的な1層Transformer言語モデルから始めます。この基本モデルは、それぞれTinyStoriesとLuaプログラミング言語の2つの新しいテキストのドメインに適応され、そしてこれら2つのモデルは球面線形補間を使用してマージされます。私たちの探究は、小規模モデルと疎なオートエンコーダを使用した典型的な転移学習シナリオにおける特徴の安定性と変換について、より深い洞察を提供することを目指しています。

WorldMedQA-V: マルチモーダル言語モデル評価のための多言語、マルチモーダル医学検査データセット
WorldMedQA-V: a multilingual, multimodal medical examination dataset for multimodal language models evaluation

Oct 16

ByJoão Matos, Shan Chen, Siena Placino, Yingya Li, Juan Carlos Climent Pardo, Daphna Idan, Takeshi Tohyama, David Restrepo, Luis F. Nakayama, Jose M. M. Pascual-Leone, Guergana Savova, Hugo Aerts, Leo A. Celi, A. Ian Wong, Danielle S. Bitterman, Jack Gallifant

マルチモーダル/ビジョン言語モデル（VLMs）は、世界中の医療現場でますます展開されており、それらの安全性、有効性、公平性を確保するための堅牢なベンチマークが必要とされています。国立医学試験から派生した多肢選択式質問と回答（QA）データセットは、長い間価値ある評価ツールとして機能してきましたが、既存のデータセットは主にテキストのみであり、言語や国の限られたサブセットで利用可能です。これらの課題に対処するために、私たちはWorldMedQA-Vを提案します。これは、医療分野におけるVLMsの評価を目的とした更新された多言語、マルチモーダルなベンチマークデータセットです。WorldMedQA-Vには、4つの国（ブラジル、イスラエル、日本、スペイン）からの568個のラベル付き多肢選択式QAとそれに対応する568枚の医療画像が含まれており、それぞれの元の言語と母国の臨床医による英語の検証された翻訳をカバーしています。一般的なオープンソースおよびクローズドソースモデルのベースライン性能が、ローカル言語と英語の翻訳、およびモデルに画像を提供する場合としない場合の両方で提供されています。WorldMedQA-Vベンチマークは、AIシステムを展開される多様な医療環境により適合させることを目指し、より公正で効果的かつ代表的なアプリケーションを促進します。

FLARE: 忠実な論理支援推論と探索
FLARE: Faithful Logic-Aided Reasoning and Exploration

Oct 14

ByErik Arakelyan, Pasquale Minervini, Pat Verga, Patrick Lewis, Isabelle Augenstein

近年の大規模言語モデル（LLMs）に基づく現代の質問応答（QA）および推論アプローチでは、Chain-of-Thought（CoT）などのプロンプティング技術が一般的に使用され、生成物はより詳細な探索と問題空間および範囲に対する推論を持つと仮定されています。しかし、このような手法は、モデルによって生成された中間推論の出力が忠実であることに苦労しています。一方、Faithful CoT（F-CoT）などの神経記号論的手法は、LLMsと外部の記号ソルバーを組み合わせることを提案しています。このようなアプローチは高い忠実度を誇りますが、通常はコード生成用にトレーニングされたモデルが必要であり、曖昧または厳密に形式化するのが難しいタスクに苦労します。私たちは、Faithful Logic-Aided Reasoning and Exploration（\ours）という、タスクの分解を使用して問題空間を横断するための新しい解釈可能なアプローチを紹介します。LLMを使用してソリューションを計画し、論理プログラミングコードを使用してクエリを事実と述語にソフト形式化し、そのコードの実行を定義された空間上での徹底的なマルチホップ検索を使用してシミュレートします。私たちの手法により、生成されたコードに対する推論プロセスの忠実度を計算し、外部ソルバーに依存せずにマルチホップ検索のステップを分析することが可能です。私たちの手法は、9つの多様な推論ベンチマークのうち7つでSOTAの結果を達成しています。また、モデルの忠実度が全体的なパフォーマンスと正の相関関係にあることを示し、さらに{\ours}が、マルチホップ検索中の最適な推論を行い、正しい答えに至るために十分なかつ重要な要因を特定することを可能にすることも示しています。

OMCAT: オムニコンテキストアウェアトランスフォーマー
OMCAT: Omni Context Aware Transformer

Oct 15

ByArushi Goel, Karan Sapra, Matthieu Le, Rafael Valle, Andrew Tao, Bryan Catanzaro

大規模言語モデル（LLMs）は、テキスト生成と理解において大きな進歩を遂げており、最近の進展は、視覚と音声の入力を統合したマルチモーダルLLMsにまで拡大しています。ただし、これらのモデルは、特にオーディオとビデオストリーム間でイベントを相互関連付ける際に、細かいクロスモーダルな時間理解に苦労しています。私たちは、これらの課題に対処するために、2つの重要な貢献を行っています：新しいデータセットとモデル、それぞれOCTAVとOMCATと呼ばれます。OCTAV（Omni Context and Temporal Audio Video）は、オーディオとビデオ間のイベントの推移を捉えるために設計された革新的なデータセットです。第二に、OMCAT（Omni Context Aware Transformer）は、時間アンカー付きタスクにおける時間的な基盤と計算効率を向上させるために、RoPEの革新的な拡張であるRoTE（Rotary Time Embeddings）を活用する強力なモデルです。堅牢な3段階のトレーニングパイプライン―特徴の整列、指示の調整、およびOCTAV固有のトレーニング―を通じて、OMCATはクロスモーダルな時間理解に優れています。私たちのモデルは、オーディオビジュアル質問応答（AVQA）タスクとOCTAVベンチマークで最先端のパフォーマンスを示し、包括的な実験と削除研究を通じて検証された時間的推論とクロスモーダルな整合性において大きな利点を示しています。私たちのデータセットとコードは公開されます。デモページへのリンクはhttps://om-cat.github.ioです。

逆の視点からの洞察: 逆強化学習を通じたLLMトレーニング目標の再構築
Insights from the Inverse: Reconstructing LLM Training Goals Through Inverse RL

Oct 16

ByJared Joselowitz, Arjun Jagota, Satyapriya Krishna, Sonali Parbhoo

強化学習からの人間フィードバック（RLHF）で訓練された大規模言語モデル（LLMs）は、顕著な能力を示していますが、その根底にある報酬関数と意思決定プロセスは不透明です。本論文では、逆強化学習（IRL）を適用してLLMsを解釈する革新的な手法を紹介します。私たちは、さまざまなサイズの有毒性に整合したLLMsで実験を行い、人間の選好を予測する際に最大80.40％の精度を達成する報酬モデルを抽出します。我々の分析は、報酬関数の非同一性、モデルサイズと解釈可能性の関係、RLHFプロセスにおける潜在的な落とし穴に関する重要な洞察を明らかにします。IRLによって導出された報酬モデルを使用して新しいLLMsを微調整することができ、有毒性ベンチマークでの比較可能または向上したパフォーマンスを実現します。この研究は、LLMの整合性を理解し改善するための新しい視点を提供し、これらの強力なシステムの責任ある開発と展開に影響を与えます。

コマンドからプロンプトへ：AIOS向けLLMベースの意味論ファイルシステム
From Commands to Prompts: LLM-based Semantic File System for AIOS

Sep 23

ByZeru Shi, Kai Mei, Mingyu Jin, Yongye Su, Chaoji Zuo, Wenyue Hua, Wujiang Xu, Yujie Ren, Zirui Liu, Mengnan Du, Dong Deng, Yongfeng Zhang

大規模言語モデル（LLM）は、LLMベースのエージェントやエージェントオペレーティングシステム（AIOS）などの知能アプリケーションやシステムの開発において、重要な潜在能力を示しています。ただし、これらのアプリケーションやシステムが基礎となるファイルシステムとやり取りする際には、ファイルシステムは依然として従来のパラダイムであり、正確なコマンドを手動でナビゲートすることに依存しています。このパラダイムは、ユーザーが複雑なフォルダ階層をナビゲートし、難解なファイル名を覚える必要があるため、これらのシステムの利用性にボトルネックを引き起こします。この制限に対処するために、私たちはプロンプト駆動のファイル管理のためのLLMベースの意味論的ファイルシステム（LSFS）を提案しています。従来のアプローチとは異なり、LSFSはLLMを組み込んで、ユーザーやエージェントが自然言語のプロンプトを介してファイルとやり取りできるようにし、意味論的ファイル管理を容易にします。マクロレベルでは、意味論的ファイルの取得、ファイルの更新監視と要約、意味論的ファイルのロールバックなどの機能を実現する包括的なAPIセットを開発しています。マイクロレベルでは、ファイルを保存する際に、それらのための意味論的インデックスを構築し、ベクトルデータベースによって駆動される異なる意味論的操作（例：CRUD、グループ化、結合）のシスコールを設計・実装しています。私たちの実験は、LSFSが従来のファイルシステムに比べて、ユーザーの利便性、サポートされる機能の多様性、ファイル操作の正確性と効率性の面で著しい改善を提供していることを示しています。さらに、LLMの統合により、コンテンツの要約やバージョン比較などのより知的なファイル管理タスクが可能となり、その機能をさらに高めています。

LLMにおける過信の抑制: RLHFにおける報酬キャリブレーション
Taming Overconfidence in LLMs: Reward Calibration in RLHF

Oct 13

ByJixuan Leng, Chengsong Huang, Banghua Zhu, Jiaxin Huang

言語モデルのキャリブレーションとは、モデルの信頼度とその応答の実際のパフォーマンスとの整合性を指します。以前の研究では、大規模言語モデル（LLM）における過信現象を指摘し、人間のフィードバックからの強化学習（RLHF）で訓練されたLLMがよりシャープな出力確率で過信していることを示していますが、本研究では、RLHFがモデルを自身の応答において口頭での過信を表現する傾向があることを明らかにします。この過信の根本的な原因を調査し、Proximal Policy Optimization（PPO）で使用される報酬モデルが、応答の実際の品質に関係なく高い信頼スコアに対する固有のバイアスを示すことを示します。この洞察を基に、PPO-M: キャリブレーションされた報酬モデリングを備えたPPOとPPO-C: キャリブレーションされた報酬計算を提案します。PPO-Mは、報酬モデルのトレーニングに明示的な信頼度スコアを統合し、応答品質と口頭での信頼度との整合性をより適切に捉えるように報酬モデルをキャリブレートします。PPO-Cは、PPO中に報酬スコアを、現在の報酬と過去の報酬の移動平均との差に基づいて調整します。PPO-MとPPO-Cの両方は、現行のPPOパイプラインにシームレスに統合でき、追加の正解ラベルは必要ありません。私たちの手法を、複数選択肢やオープンエンド生成を含む6つの異なるデータセットを対象に、Llama3-8BとMistral-7Bで評価します。実験結果は、私たちの両手法がキャリブレーションエラーを減少させ、標準的なPPOと同等のパフォーマンスを維持できることを示しています。さらに、オープンエンドの会話設定においてモデルの能力を損なわないことも示しています。

AI研究論文デイリー

翻訳付きの日次キュレーションされたAI研究論文

VidEgoThink：具体的AIのためのエゴセントリックビデオ理解能力の評価
VidEgoThink: Assessing Egocentric Video Understanding Capabilities for Embodied AI

Oct 15

BySijie Cheng, Kechen Fang, Yangyang Yu, Sicheng Zhou, Bohao Li, Ye Tian, Tingguang Li, Lei Han, Yang Liu

HumanEval-V: コーディングタスクを通じて大規模なマルチモーダルモデルの視覚理解および推論能力を評価する
HumanEval-V: Evaluating Visual Understanding and Reasoning Abilities of Large Multimodal Models Through Coding Tasks

Oct 16

ByFengji Zhang, Linquan Wu, Huiyu Bai, Guancheng Lin, Xiao Li, Xiao Yu, Yue Wang, Bei Chen, Jacky Keung

DocLayout-YOLO: 多様な合成データとグローバルからローカルへの適応的知覚を通じて文書レイアウト解析を強化する
DocLayout-YOLO: Enhancing Document Layout Analysis through Diverse Synthetic Data and Global-to-Local Adaptive Perception

Oct 16

ByZhiyuan Zhao, Hengrui Kang, Bin Wang, Conghui He

マルチモダリティの呪い：言語、視覚、音声を横断する大規模マルチモーダルモデルの幻覚の評価
The Curse of Multi-Modalities: Evaluating Hallucinations of Large Multimodal Models across Language, Visual, and Audio

Oct 16

BySicong Leng, Yun Xing, Zesen Cheng, Yang Zhou, Hang Zhang, Xin Li, Deli Zhao, Shijian Lu, Chunyan Miao, Lidong Bing

ZipVL: 動的トークンの疎な化とKVキャッシュの圧縮を用いた効率的な大規模ビジョン言語モデル
ZipVL: Efficient Large Vision-Language Models with Dynamic Token Sparsification and KV Cache Compression

Oct 11

ByYefei He, Feng Chen, Jing Liu, Wenqi Shao, Hong Zhou, Kaipeng Zhang, Bohan Zhuang

ChroKnowledge: 言語モデルの複数ドメインにおける時系列知識の解明
ChroKnowledge: Unveiling Chronological Knowledge of Language Models in Multiple Domains

Oct 13

ByYein Park, Chanwoong Yoon, Jungwoo Park, Donghyeon Lee, Minbyul Jeong, Jaewoo Kang

WorldMedQA-V: マルチモーダル言語モデル評価のための多言語、マルチモーダル医学検査データセット
WorldMedQA-V: a multilingual, multimodal medical examination dataset for multimodal language models evaluation

Oct 16