ByYi-Fan Zhang, Huanyu Zhang, Haochen Tian, Chaoyou Fu, Shuangqing Zhang, Junfei Wu, Feng Li, Kun Wang, Qingsong Wen, Zhang Zhang, Liang Wang, Rong Jin, Tieniu Tan
26
4
Comprehensive evaluation of Multimodal Large Language Models (MLLMs) has
recently garnered widespread attention in the research community. However, we
observe that existing benchmarks present several common barriers that make it
difficult to measure the significant challenges that models face in the real
world, including: 1) small data scale leads to a large performance variance; 2)
reliance on model-based annotations results in restricted data quality; 3)
insufficient task difficulty, especially caused by the limited image
resolution. To tackle these issues, we introduce MME-RealWorld. Specifically,
we collect more than 300K images from public datasets and the Internet,
filtering 13,366 high-quality images for annotation. This involves the
efforts of professional 25 annotators and 7 experts in MLLMs, contributing
to 29,429 question-answer pairs that cover 43 subtasks across 5
real-world scenarios, extremely challenging even for humans. As far as we know,
MME-RealWorld is the largest manually annotated benchmark to date, featuring
the highest resolution and a targeted focus on real-world applications. We
further conduct a thorough evaluation involving 28 prominent MLLMs, such as
GPT-4o, Gemini 1.5 Pro, and Claude 3.5 Sonnet. Our results show that even the
most advanced models struggle with our benchmarks, where none of them reach
60% accuracy. The challenges of perceiving high-resolution images and
understanding complex real-world scenarios remain urgent issues to be
addressed. The data and evaluation code are released at
https://mme-realworld.github.io/ .
人気のあるトランスフォーマーアーキテクチャの自己注意メカニズムにおける二次計算複雑性は、効率性とメモリ要件の観点から、特にトレーニングと推論において重要な課題を提起しています。これらの課題に対処するため、本論文では、マルチレイヤートランスフォーマーモデルにおける勾配計算のための革新的な高速計算方法を紹介します。当手法により、入力シーケンスの長さを表す n に対して、ほぼ線形時間 n^{1+o(1)} でマルチレイヤートランスフォーマーモデル全体の勾配計算が可能となります。このブレークスルーにより、従来の二次時間複雑性に関連する計算的ボトルネックが大幅に軽減されます。当理論は任意の損失関数に対して成立し、全モデル全体で境界の近似誤差を維持します。さらに、当マルチレイヤートランスフォーマーモデルがリジュアル接続、カジュアルマスク、マルチヘッドアテンションなど多くの実用的なサブモジュールを含む場合でも、当分析は成立します。大規模言語モデルにおける勾配計算の効率を向上させることで、当研究が、理論的結果に基づく長いコンテキストの言語モデルのより効果的なトレーニングと展開を促進することを期待しています。
ByKazi Hasan Ibn Arif, JinYi Yoon, Dimitrios S. Nikolopoulos, Hans Vandierendonck, Deepu John, Bo Ji
11
2
高解像度ビジョン言語モデル(VLM)は、詳細な画像情報を保持することで精度を向上させるために、多様なタスクで広く使用されています。しかしながら、これらのモデルは、入力画像の複数のパーティションをエンコードすることにより、過剰なビジュアルトークンを生成することがよくあります。これらの過剰なビジュアルトークンを処理することは、特に資源制約の厳しい環境でのコンピューテーショナルな挑戦となります。リソース制約を満たしながら高解像度画像をサポートするために、我々は、大規模言語モデル(LLM)段階の前で動作するトークンドロップスキームであるHigh-Resolution Early Dropping(HiRED)を提案します。HiREDは既存の高解像度VLMにプラグアンドプレイで統合でき、追加のトレーニングは必要ありませんが、優れた精度を維持します。我々は、ビジョンエンコーダのアテンションを初期層で戦略的に使用して、各画像パーティションのビジュアルコンテンツを評価し、それに応じてトークン予算を割り当てます。次に、最終層のアテンションを使用して、割り当てられた予算内で各パーティションから最も重要なビジュアルトークンを選択し、残りを削除します。経験的には、NVIDIA TESLA P40 GPU上のLLaVA-Next-7Bに適用した場合、HiREDはトークン生成スループットを4.7倍に向上させ、最初のトークン生成レイテンシを15秒短縮し、単一の推論においてGPUメモリを2.3 GB節約します。
ByYunji Seo, Young Sun Choi, Hyun Seung Son, Youngjung Uh
6
2
3D Gaussian Splatting(3DGS)は、多数の小さなガウス関数を使用することで高速かつ高品質なレンダリングを実現しますが、これにより膨大なメモリ消費が発生します。この多数のガウス関数への依存は、メモリ制約により低コストデバイスでの3DGSベースのモデルの適用を制限します。ただし、メモリ容量の少ないデバイスに対応するために単にガウス関数の数を減らすと、高エンドハードウェアで達成できる品質に比べて質が劣ります。このスケーラビリティの欠如に対処するために、我々は3DGSに柔軟な詳細度レベル(FLoD)を統合することを提案します。これにより、ハードウェアの能力に応じてシーンを異なる詳細度レベルでレンダリングできます。既存のLoDを備えた3DGSは詳細な再構成に焦点を当てていますが、当社の手法は、メモリ要件を削減するために少数のガウス関数を使用した再構成と、より詳細な再構成のために多数のガウス関数を使用します。実験により、レンダリング品質とメモリ使用量のトレードオフを伴うさまざまなレンダリングオプションを示し、異なるメモリ制約下でのリアルタイムレンダリングを可能にします。さらに、当社の手法が異なる3DGSフレームワークに汎用性があり、将来の最先端技術への統合の可能性を示しています。プロジェクトページ:https://3dgs-flod.github.io/flod.github.io/