翻訳付きの日次キュレーションされたAI研究論文
潜在的一貫性モデル(LCM)は、テキストから画像生成タスクの高速化において印象的な性能を発揮し、最小限の推論ステップで高品質な画像を生成します。LCMは事前学習済みの潜在拡散モデル(LDM)から蒸留されており、約32時間のA100 GPUトレーニング時間のみを必要とします。本レポートでは、LCMの可能性をさらに2つの側面から拡張しています。第一に、LoRA蒸留をStable-Diffusionモデル(SD-V1.5、SSD-1B、SDXLを含む)に適用することで、LCMの適用範囲をより大規模なモデルに拡大し、大幅に少ないメモリ消費で優れた画像生成品質を実現しました。第二に、LCM蒸留を通じて得られたLoRAパラメータを、普遍的なStable-Diffusion高速化モジュールとして特定し、LCM-LoRAと命名しました。LCM-LoRAは、トレーニングなしでさまざまなStable-DiffusionのファインチューニングモデルやLoRAに直接組み込むことができ、多様な画像生成タスクに普遍的に適用可能なアクセラレータとして機能します。DDIMやDPM-Solverなどの従来の数値PF-ODEソルバーと比較して、LCM-LoRAは強力な汎化能力を持つプラグイン型ニューラルPF-ODEソルバーと見なすことができます。プロジェクトページ:https://github.com/luosiallen/latent-consistency-model。
LLaVA-Plusは、大規模マルチモーダルモデルの能力を拡張する汎用マルチモーダルアシスタントです。事前学習済みの視覚モデルおよび視覚-言語モデルのスキルリポジトリを保持し、ユーザーの入力に基づいて関連ツールを起動して現実世界のタスクを遂行します。LLaVA-Plusは、マルチモーダルな指示追従データを用いて訓練され、視覚理解、生成、外部知識検索、およびそれらの組み合わせを含むツール使用能力を獲得します。実験結果は、LLaVA-Plusが既存の能力においてLLaVAを上回り、新たな能力を示すことを示しています。その特徴は、画像クエリが直接的に基盤づけられ、人間とAIのインタラクションセッション全体を通じて積極的に活用されることであり、これによりツール使用性能が大幅に向上し、新たなシナリオが可能となります。
本論文では、Prompt Cacheというアプローチを提案します。これは、大規模言語モデル(LLM)の推論を高速化するために、異なるLLMプロンプト間でアテンション状態を再利用する手法です。多くの入力プロンプトには、システムメッセージ、プロンプトテンプレート、文脈として提供されるドキュメントなど、重複するテキストセグメントが存在します。私たちの重要な洞察は、これらの頻繁に出現するテキストセグメントのアテンション状態を推論サーバー上で事前計算して保存することで、ユーザープロンプト内でこれらのセグメントが出現した際に効率的に再利用できるという点です。Prompt Cacheは、プロンプトモジュールと呼ばれる再利用可能なテキストセグメントを明示的に定義するスキーマを採用しています。このスキーマは、アテンション状態の再利用時に位置精度を保証し、ユーザーがキャッシュされた状態にアクセスするためのインターフェースを提供します。プロトタイプ実装を用いて、複数のLLMに対してPrompt Cacheを評価しました。その結果、Prompt Cacheが、特にドキュメントベースの質問応答やレコメンデーションなどの長いプロンプトにおいて、最初のトークンまでの待ち時間を大幅に短縮することが示されました。GPUベースの推論では8倍、CPUベースの推論では60倍の改善が見られ、出力精度を維持しつつ、モデルパラメータの変更を必要としませんでした。
大規模言語モデル(LLM)は最近、さまざまな専門的および学術的なベンチマークで人間レベルの性能を達成しています。しかし、これらのモデルのアクセシビリティはその性能に追いついていません。最先端のLLMは高価なインフラを必要とし、レート制限、地域制限、検閲がかかったウェブインターフェースを通じてのみアクセス可能で、公開されたコードや技術レポートも不足しています。本論文では、LLMへのアクセスを民主化することを目指す人気のオープンソースリポジトリであるGPT4Allのストーリーを紹介します。私たちは、オリジナルのGPT4Allモデルファミリーの技術的詳細と、GPT4Allプロジェクトが単一のモデルから完全なオープンソースエコシステムへと進化した過程を概説します。この論文が、オリジナルのGPT4Allモデルの技術的概要としてだけでなく、その後のGPT4Allオープンソースエコシステムの成長に関するケーススタディとしても機能することを願っています。
LLaVAやMini-GPT4などの最近の進歩により、視覚情報を大規模言語モデル(LLM)に統合することに成功し、画期的な成果を上げ、新世代のマルチモーダルLLM(MLLM)が誕生しました。しかし、これらの手法は幻覚現象やタスク間の相互干渉に悩まされています。これらの問題に対処するため、我々はLLMを複数の専門モデルを接続する橋渡しとして活用し、下流タスクに適応する効率的かつ正確なアプローチ、すなわちu-LLaVAを提案します。まず、モダリティアライメントモジュールとマルチタスクモジュールをLLMに組み込みます。次に、効率的なモダリティアライメントと指示追従を可能にするため、多種多様な公開データセットを再編成または再構築します。最後に、訓練されたLLMからタスク固有の情報を抽出し、異なるモジュールに提供して下流タスクを解決します。この全体のフレームワークはシンプルで効果的であり、複数のベンチマークで最先端の性能を達成しています。また、我々のモデル、生成されたデータ、およびコードベースを公開しています。
自動運転技術の追求は、知覚、意思決定、制御システムの高度な統合にかかっている。従来のデータ駆動型およびルールベースのアプローチは、複雑な運転環境のニュアンスや他の道路利用者の意図を把握できないという課題に直面してきた。これは、安全で信頼性の高い自動運転に必要な常識的推論や微妙なシーン理解の開発において、大きなボトルネックとなっている。視覚言語モデル(VLM)の登場は、完全な自動運転を実現するための新たなフロンティアを切り開くものである。本報告書では、最新の最先端VLMである\modelnamefullとその自動運転シナリオへの応用について、徹底的な評価を行っている。我々は、運転シーンの理解と推論、意思決定、そして最終的にはドライバーとしての行動能力について、モデルの能力を探求した。基本的なシーン認識から複雑な因果推論、さまざまな条件下でのリアルタイム意思決定まで、包括的なテストを実施した。その結果、\modelnameは既存の自動運転システムと比較して、シーン理解と因果推論において優れた性能を示すことが明らかになった。分布外シナリオの処理、意図の認識、実際の運転コンテキストでの情報に基づいた意思決定の可能性を示している。しかし、方向の識別、信号機の認識、視覚的基盤付け、空間推論タスクにおいては課題が残っている。これらの制約は、さらなる研究開発の必要性を浮き彫りにしている。本プロジェクトは、興味のある方々がアクセスして利用できるよう、GitHubで公開されている:https://github.com/PJLab-ADG/GPT4V-AD-Exploration