AI研究論文デイリー

翻訳付きの日次キュレーションされたAI研究論文

MiniCPM-V：スマートフォン上で動作するGPT-4VレベルのMLLM
MiniCPM-V: A GPT-4V Level MLLM on Your Phone

Aug 3

ByYuan Yao, Tianyu Yu, Ao Zhang, Chongyi Wang, Junbo Cui, Hongji Zhu, Tianchi Cai, Haoyu Li, Weilin Zhao, Zhihui He, Qianyu Chen, Huarong Zhou, Zhensheng Zou, Haoye Zhang, Shengding Hu, Zhi Zheng, Jie Zhou, Jie Cai, Xu Han, Guoyang Zeng, Dahai Li, Zhiyuan Liu, Maosong Sun

近年のマルチモーダル大規模言語モデル（MLLM）の急激な進展は、AI研究と産業の風景を根本的に変え、次のAIのマイルストーンに向けた有望な道筋を示しています。しかし、MLLMが実世界のアプリケーションで実用的になるためには、依然として大きな課題が残っています。最も顕著な課題は、膨大なパラメータ数と広範な計算を必要とするMLLMを実行するための莫大なコストです。その結果、ほとんどのMLLMは高性能なクラウドサーバーにデプロイする必要があり、モバイル、オフライン、エネルギーに敏感な環境、プライバシー保護が必要なシナリオなど、その適用範囲が大きく制限されています。本論文では、エンドサイドデバイスにデプロイ可能な効率的なMLLMシリーズであるMiniCPM-Vを紹介します。最新のMLLM技術をアーキテクチャ、事前学習、アライメントに統合した最新のMiniCPM-Llama3-V 2.5は、以下の注目すべき特徴を持っています：（1）強力な性能で、OpenCompass（11の主要なベンチマークを網羅した包括的評価）においてGPT-4V-1106、Gemini Pro、Claude 3を上回る、（2）強力なOCR能力と1.8Mピクセルの高解像度画像認識を任意のアスペクト比で実現、（3）低い幻覚率による信頼性の高い動作、（4）30以上の言語をサポートする多言語対応、（5）スマートフォンでの効率的なデプロイ。さらに重要なことに、MiniCPM-Vは、使用可能なレベル（例：GPT-4V）の性能を達成するためのモデルサイズが急速に縮小し、エンドサイドの計算能力が急速に向上しているという有望なトレンドの代表例と見なすことができます。これにより、エンドデバイスにデプロイされたGPT-4VレベルのMLLMがますます実現可能になり、近い将来に現実世界のAIアプリケーションの幅広いスペクトルが解き放たれることが示されています。

言語モデルは話しながら聞くことができる
Language Model Can Listen While Speaking

Aug 5

ByZiyang Ma, Yakun Song, Chenpeng Du, Jian Cong, Zhuo Chen, Yuping Wang, Yuxuan Wang, Xie Chen

対話は、人間とコンピュータのインタラクション（HCI）において最も自然な形態である。近年の音声言語モデル（SLM）の進展により、音声ベースの会話型AIが大幅に向上している。しかし、これらのモデルはターンベースの会話に限定されており、生成された内容が不満足な場合に割り込まれるなど、リアルタイムの音声シナリオでの人間とのインタラクション能力を欠いている。これらの制限を解決するため、我々はインタラクティブ音声言語モデル（iSLM）における全二重モデリング（FDM）を探求し、リアルタイムインタラクションの強化、特に割り込みの本質的な能力に焦点を当てる。我々は、リスニングとスピーキングの両方のチャネルを備えたエンドツーエンドシステムである、リスニング・ホワイル・スピーキング言語モデル（LSLM）という新しいモデル設計を提案する。LSLMは、音声生成のためのトークンベースのデコーダのみのTTSと、リアルタイム音声入力のためのストリーミング自己教師あり学習（SSL）エンコーダを採用している。LSLMは両チャネルを融合して自己回帰生成を行い、リアルタイムでターンテイキングを検出する。早期融合、中間融合、後期融合の3つの融合戦略を探求し、中間融合が音声生成とリアルタイムインタラクションの最適なバランスを達成した。コマンドベースのFDMと音声ベースのFDMの2つの実験設定により、LSLMのノイズに対する頑健性と多様な指示に対する感度が実証された。我々の結果は、LSLMが既存システムに最小限の影響で二重通信を実現する能力を強調している。本研究は、インタラクティブ音声対話システムの開発を進め、現実世界の文脈での適用性を高めることを目的としている。

RAGファウンドリー：検索拡張生成のためのLLM強化フレームワーク
RAG Foundry: A Framework for Enhancing LLMs for Retrieval Augmented Generation

Aug 5

ByDaniel Fleischer, Moshe Berchansky, Moshe Wasserblat, Peter Izsak

Retrieval-Augmented Generation（RAG）システムの実装は本質的に複雑であり、データ、ユースケース、そして複雑な設計判断に対する深い理解を必要とします。さらに、これらのシステムの評価は大きな課題を伴い、検索精度と生成品質の両方を多面的なアプローチで評価する必要があります。本稿では、RAGユースケース向けに大規模言語モデルを拡張するためのオープンソースフレームワークであるRAG Foundryを紹介します。RAG Foundryは、データ作成、トレーニング、推論、評価を単一のワークフローに統合し、RAG設定における大規模言語モデルのトレーニングと評価のためのデータ拡張データセットの作成を容易にします。この統合により、さまざまなRAG技術の迅速なプロトタイピングと実験が可能となり、ユーザーは内部または専門的な知識源を使用して簡単にデータセットを生成し、RAGモデルをトレーニングできます。本フレームワークの有効性を、Llama-3およびPhi-3モデルを多様なRAG構成で拡張およびファインチューニングすることで実証し、3つの知識集約型データセットにわたる一貫した改善を示します。コードはhttps://github.com/IntelLabs/RAGFoundryでオープンソースとして公開されています。

Lumina-mGPT：マルチモーダル生成事前学習による柔軟なフォトリアルなテキスト-to-画像生成の実現
Lumina-mGPT: Illuminate Flexible Photorealistic Text-to-Image Generation with Multimodal Generative Pretraining

Aug 5

ByDongyang Liu, Shitian Zhao, Le Zhuo, Weifeng Lin, Yu Qiao, Hongsheng Li, Peng Gao

本論文では、Lumina-mGPTを紹介します。これは、様々な視覚と言語タスクに対応可能なマルチモーダル自己回帰モデルのファミリーであり、特にテキスト記述から柔軟なフォトリアリスティックな画像を生成する能力に優れています。既存の自己回帰的画像生成アプローチとは異なり、Lumina-mGPTは、マルチモーダルトークンシーケンスをモデル化するための統一フレームワークとして、事前学習済みのデコーダのみのトランスフォーマーを採用しています。私たちの重要な洞察は、大規模なテキストと画像のインタリーブされたシーケンスに対して次のトークン予測目標を利用したマルチモーダル生成事前学習（mGPT）を施したシンプルなデコーダのみのトランスフォーマーが、広範で一般的なマルチモーダル能力を学習し、それによってフォトリアリスティックなテキストから画像への生成を実現できるということです。これらの事前学習済みモデルを基盤として、高品質な画像とテキストのペアに対して柔軟なプログレッシブ教師ありファインチューニング（FP-SFT）を提案し、一般的なマルチモーダル能力を維持しながら、任意の解像度での高審美性な画像合成の可能性を最大限に引き出します。さらに、オムニポーネント教師ありファインチューニング（Omni-SFT）を導入し、Lumina-mGPTをオムニポーテントなタスク統合をシームレスに達成する基盤モデルに変革します。結果として得られたモデルは、柔軟なテキストから画像への生成や制御可能な生成といった視覚生成タスク、セグメンテーションや深度推定といった視覚認識タスク、マルチターンの視覚質問応答といった視覚言語タスクを含む、多様なマルチモーダル能力を実証します。加えて、拡散ベースの手法と自己回帰的手法の違いと類似点を直接比較して分析します。

MeshAnything V2: 隣接メッシュトークン化を用いたアーティスト作成メッシュ生成
MeshAnything V2: Artist-Created Mesh Generation With Adjacent Mesh Tokenization

Aug 5

ByYiwen Chen, Yikai Wang, Yihao Luo, Zhengyi Wang, Zilong Chen, Jun Zhu, Chi Zhang, Guosheng Lin

MeshAnything V2を紹介します。これは、与えられた形状に整合するアーティスト作成メッシュ（AM）を生成する自己回帰型トランスフォーマーです。様々な3Dアセット制作パイプラインに統合可能で、高品質かつ高度に制御可能なAM生成を実現します。MeshAnything V2は、同じサイズのモデルを使用しながら、従来の手法を効率と性能の両面で凌駕します。これらの改善は、新たに提案されたメッシュトークン化手法「Adjacent Mesh Tokenization（AMT）」によるものです。従来の手法では各面を3つの頂点で表現していましたが、AMTでは可能な限り単一の頂点を使用します。AMTは、同じメッシュを表現するために必要なトークンシーケンスの長さを平均で約半分に削減します。さらに、AMTによるトークンシーケンスはよりコンパクトで構造化されており、AM生成に根本的な利点をもたらします。我々の広範な実験により、AMTがAM生成の効率と性能を大幅に向上させることが示されました。プロジェクトページ：https://buaacyw.github.io/meshanything-v2/

自己学習型評価器
Self-Taught Evaluators

Aug 5

ByTianlu Wang, Ilia Kulikov, Olga Golovneva, Ping Yu, Weizhe Yuan, Jane Dwivedi-Yu, Richard Yuanzhe Pang, Maryam Fazel-Zarandi, Jason Weston, Xian Li

モデルベースの評価は、成功するモデル開発の中核をなすものであり、トレーニングのための報酬モデルとして、また人間による評価の代替として機能します。このような評価器をトレーニングするための標準的なアプローチは、モデルの応答に対する大量の人間の選好判断を収集することですが、これはコストがかかり、モデルが改善されるにつれてデータが陳腐化してしまいます。本研究では、人間の注釈なしで評価器を改善することを目指し、合成トレーニングデータのみを使用するアプローチを提案します。ラベルなしの指示から始めて、反復的な自己改善スキームにより、対照的なモデル出力を生成し、LLM-as-a-Judge（LLMを評価者として使用する手法）をトレーニングして推論の痕跡と最終的な判断を生成し、改善された予測を使用して各新しい反復でこのトレーニングを繰り返します。ラベル付き選好データを一切使用せずに、私たちのSelf-Taught Evaluatorは、強力なLLM（Llama3-70B-Instruct）をRewardBenchで75.4から88.3（多数決では88.7）に改善することができます。これは、GPT-4などの一般的に使用されるLLM評価器を上回り、ラベル付き例でトレーニングされた最高性能の報酬モデルと同等の性能を発揮します。

データ津波の力を解き放つ：言語モデルの指示チューニングのためのデータ評価と選択に関する包括的調査
Unleashing the Power of Data Tsunami: A Comprehensive Survey on Data Assessment and Selection for Instruction Tuning of Language Models

Aug 4

ByYulei Qin, Yuncheng Yang, Pengcheng Guo, Gang Li, Hang Shao, Yuchen Shi, Zihan Xu, Yun Gu, Ke Li, Xing Sun

命令チューニングは、大規模言語モデル（LLM）を人間の好みに合わせる上で重要な役割を果たします。オープンな命令データセットが大量に存在するにもかかわらず、既存のすべての命令データでLLMを単純に訓練することは最適でも実用的でもありません。最も有益なデータポイントを特定するために、自然言語処理（NLP）や深層学習の分野でデータ評価と選択手法が提案されています。しかし、命令チューニングの文脈では、どのようなデータ評価指標を採用し、それらを選択メカニズムに統合するかについての知識がまだ不足しています。このギャップを埋めるために、我々は特にLLMの命令チューニングに関するデータ評価と選択の既存文献を包括的にレビューします。適用可能なすべての手法を品質ベース、多様性ベース、重要性ベースの3つに体系的に分類し、統一された詳細な分類体系を構築します。各カテゴリーについて、代表的な手法を詳述し、関連研究の全体像を説明します。さらに、最新の手法間の比較を公式に報告された結果に基づいて行い、それらの限界について深く議論します。最後に、未解決の課題をまとめ、将来の研究に向けた有望な方向性を提案します。関連するすべての内容はhttps://github.com/yuleiqin/fantastic-data-engineeringで公開されています。

VidGen-1M：大規模テキスト動画生成データセット
VidGen-1M: A Large-Scale Dataset for Text-to-video Generation

Aug 5

ByZhiyu Tan, Xiaomeng Yang, Luozheng Qin, Hao Li

ビデオとテキストのペアの品質は、テキストからビデオを生成するモデルの上限を根本的に決定します。現在、これらのモデルのトレーニングに使用されているデータセットには、時間的一貫性の低さ、キャプションの質の低さ、ビデオ品質の低さ、データ分布の不均衡といった重大な欠点があります。主流のビデオキュレーションプロセスは、画像モデルに依存したタグ付けと手動のルールベースのキュレーションに依存しており、高い計算負荷を引き起こし、不純なデータを残す結果となっています。その結果、テキストからビデオを生成するモデルに適したトレーニングデータセットが不足しています。この問題に対処するため、我々はVidGen-1Mを提案します。これは、粗から細へのキュレーション戦略を通じて作成された、テキストからビデオを生成するモデルのための優れたトレーニングデータセットです。このデータセットは、高品質のビデオと優れた時間的一貫性を持つ詳細なキャプションを保証します。このデータセットを使用してビデオ生成モデルをトレーニングした結果、他のモデルで得られた結果を上回る実験結果が得られました。

ProCreate、Reproduceするな！創造的生成のための推進的エネルギー拡散
ProCreate, Dont Reproduce! Propulsive Energy Diffusion for Creative Generation

Aug 5

ByJack Lu, Ryan Teehan, Mengye Ren

本論文では、拡散モデルに基づく画像生成モデルのサンプル多様性と創造性を向上させ、学習データの再現を防ぐためのシンプルで実装が容易な手法「ProCreate」を提案します。ProCreateは、参照画像セットに対して動作し、生成プロセス中に生成画像の埋め込みを参照埋め込みから積極的に遠ざけます。我々は、8つの異なるカテゴリ（異なる概念、スタイル、設定を含む）におけるFew-Shot Creative Generationデータセット「FSCG-8」を提案し、ProCreateが最高のサンプル多様性と忠実度を達成することを示します。さらに、大規模な評価において、ProCreateが学習テキストプロンプトを使用した場合の学習データの複製を効果的に防ぐことを実証します。コードとFSCG-8はhttps://github.com/Agentic-Learning-AI-Lab/procreate-diffusion-publicで公開されており、プロジェクトページはhttps://procreate-diffusion.github.ioで閲覧可能です。

BioMamba: Mambaを活用した事前学習済み生体医科学言語表現モデル
BioMamba: A Pre-trained Biomedical Language Representation Model Leveraging Mamba

Aug 5

ByLing Yue, Sixue Xing, Yingzhou Lu, Tianfan Fu

生物学における自然言語処理（NLP）の進展は、複雑な生物医学文献を解釈するモデルの能力にかかっている。従来のモデルは、この分野の複雑でドメイン固有の言語に対処するのに苦労することが多い。本論文では、生物医学テキストマイニングに特化して設計された事前学習モデルであるBioMambaを紹介する。BioMambaはMambaアーキテクチャを基盤としており、広範な生物医学文献のコーパスで事前学習されている。我々の実証研究により、BioMambaがBioBERTや汎用ドメインのMambaなどのモデルを、さまざまな生物医学タスクにおいて大幅に上回ることが示されている。例えば、BioMambaはBioASQテストセットにおいて、パープレキシティを100分の1に、クロスエントロピー損失を4分の1に削減する。本論文では、モデルアーキテクチャ、事前学習プロセス、およびファインチューニング技術の概要を提供する。さらに、さらなる研究を促進するために、コードと学習済みモデルを公開する。

GPUDrive: データ駆動型のマルチエージェント運転シミュレーションを100万FPSで実現
GPUDrive: Data-driven, multi-agent driving simulation at 1 million FPS

Aug 2

BySaman Kazemkhani, Aarav Pandya, Daphne Cornelisse, Brennan Shacklett, Eugene Vinitsky

マルチエージェント学習アルゴリズムは、多様なゲームにおいて超人レベルの計画生成に成功してきたが、実際に展開されるマルチエージェントプランナーの設計にはほとんど影響を与えていない。これらの技術をマルチエージェント計画に適用する際の主要なボトルネックは、数十億ステップの経験を必要とすることである。この規模でのマルチエージェント計画の研究を可能にするため、我々はGPUDriveを開発した。これはMadrona Game Engine上に構築されたGPUアクセラレーション型のマルチエージェントシミュレータで、毎秒100万ステップ以上の経験を生成できる。観測、報酬、ダイナミクス関数は直接C++で記述されており、ユーザーは複雑で異質なエージェントの振る舞いを定義し、それを高性能なCUDAに変換することができる。GPUDriveを使用することで、Waymo Motionデータセットの多数のシーンにおいて強化学習エージェントを効果的に訓練し、個々のシーンでは数分で高度に効果的な目標到達エージェントを、また一般的な能力を持つエージェントを数時間で生成できることを示す。これらの訓練済みエージェントは、コードベースの一部としてhttps://github.com/Emerge-Lab/gpudriveで公開している。

大規模言語モデルの推論性能に対するハイパーパラメータの影響：vLLMとHuggingFaceパイプラインの評価
The Impact of Hyperparameters on Large Language Model Inference Performance: An Evaluation of vLLM and HuggingFace Pipelines

Aug 2

ByMatias Martinez

最近のオープンソース大規模言語モデル（LLM）の急増により、開発者はプライバシーやコンプライアンスなどの側面を維持しながらAIベースのソリューションを作成できるようになり、モデル展開プロセスに対するガバナンスと所有権を提供しています。これらのLLMを活用するためには、推論エンジンが必要です。これらのエンジンは、モデルの重みをGPUなどの利用可能なリソースにロードし、クエリを処理して応答を生成します。LLMの推論速度、つまりパフォーマンスは、リアルタイムアプリケーションにとって極めて重要であり、推論ごとに数百万または数十億の浮動小数点演算を計算します。最近では、vLLMのような高度な推論エンジンが登場し、効率的なメモリ管理などの新しいメカニズムを組み込むことで、最先端のパフォーマンスを実現しています。本論文では、2つの推論ライブラリ（vLLMとHuggingFaceのパイプライン）を使用して、20のLLMのパフォーマンス、特にスループット（単位時間あたりに生成されるトークン数）を分析します。開発者が設定しなければならないさまざまなハイパーパラメータが推論パフォーマンスにどのように影響するかを調査します。その結果、スループットのランドスケープは不規則で、明確なピークがあることが明らかになり、最大パフォーマンスを達成するためのハイパーパラメータ最適化の重要性が浮き彫りになりました。また、推論に使用するGPUモデルをアップグレードまたはダウングレードする際にハイパーパラメータ最適化を適用することで、HuggingFaceパイプラインのスループットが平均で9.16％および13.7％向上することを示します。

ExoViP：外骨格モジュールを用いた段階的検証と探索による構成視覚推論
ExoViP: Step-by-step Verification and Exploration with Exoskeleton Modules for Compositional Visual Reasoning

Aug 5

ByYuxuan Wang, Alan Yuille, Zhuowan Li, Zilong Zheng

複雑なクエリを実行可能な視覚タスクの構造化された組み合わせに変換するコンポジショナル視覚推論手法は、複雑なマルチモーダルタスクにおいて強い可能性を示してきました。大規模言語モデル（LLM）の最近の進展により、このマルチモーダルの課題は、LLMを少数ショット/ゼロショットプランナー、すなわち視覚言語（VL）プログラミングとして扱うことで新たな段階に進みました。しかし、このような手法は、LLMの計画ミスや視覚実行モジュールの不正確さによる課題に直面し、非コンポジショナルモデルに遅れを取っています。本研究では、プランニングと実行の両段階でのエラーを内省的検証を通じて修正する「プラグアンドプレイ」手法、ExoViPを考案しました。我々は、検証モジュールを「外骨格」として活用し、現在のVLプログラミングスキームを強化します。具体的には、提案する検証モジュールは、3つのサブ検証器の混合を利用して各推論ステップ後の予測を検証し、視覚モジュールの予測を較正し、LLMによって計画された推論トレースを洗練します。2つの代表的なVLプログラミング手法を用いた実験結果は、標準ベンチマークにおける5つのコンポジショナル推論タスクで一貫した改善を示しています。これにより、ExoViPがオープンドメインのマルチモーダル課題において、より優れた性能と汎化を促進できると確信しています。

プライバシー意識の高いアシスタントにおける文脈的整合性の運用化
Operationalizing Contextual Integrity in Privacy-Conscious Assistants

Aug 5

BySahra Ghalebikesabi, Eugene Bagdasaryan, Ren Yi, Itay Yona, Ilia Shumailov, Aneesh Pappu, Chongyang Shi, Laura Weidinger, Robert Stanforth, Leonard Berrada, Pushmeet Kohli, Po-Sen Huang, Borja Balle

先進的なAIアシスタントは、最先端の大規模言語モデル（LLM）とツールへのアクセスを組み合わせ、ユーザーの代わりに複雑なタスクを自律的に実行します。このようなアシスタントの有用性は、メールやドキュメントを含むユーザー情報へのアクセスによって大幅に向上する可能性がありますが、これにより、ユーザーの監督なしにアシスタントが第三者に不適切な情報を共有するというプライバシー上の懸念が生じます。プライバシー期待に沿った情報共有を実現するために、私たちは「文脈的整合性（Contextual Integrity, CI）」というフレームワークを運用化することを提案します。CIは、特定の文脈における情報の適切な流れをプライバシーと同等と見なすものです。特に、アシスタントの情報共有行動をCIに準拠させるための複数の戦略を設計し、評価しました。評価は、合成データと人間による注釈で構成された新しいフォーム記入ベンチマークに基づいて行われ、最先端のLLMにCIに基づく推論を促すことが強力な結果をもたらすことが明らかになりました。