タスク・ミー・エニシング
Task Me Anything
June 17, 2024
著者: Jieyu Zhang, Weikai Huang, Zixian Ma, Oscar Michel, Dong He, Tanmay Gupta, Wei-Chiu Ma, Ali Farhadi, Aniruddha Kembhavi, Ranjay Krishna
cs.AI
要旨
大規模マルチモーダル言語モデル(MLM)のベンチマークは、特定の能力を評価するのではなく、モデルの一般的な能力を同時に評価するために用いられるようになりました。その結果、開発者が自身のアプリケーションに適したモデルを特定しようとする際、多数のベンチマークに圧倒され、どのベンチマークの結果が特定のユースケースに最も反映されているかについて不確かなままとなっています。本論文では、ユーザーのニーズに合わせたベンチマークを生成するベンチマーク生成エンジン「Task-Me-Anything」を紹介します。Task-Me-Anythingは、視覚的アセットの拡張可能な分類体系を維持し、プログラム的に多数のタスクインスタンスを生成することができます。さらに、計算予算内で効率的にMLMの性能に関するユーザーのクエリにアルゴリズム的に対処します。このエンジンは、113Kの画像、10Kの動画、2Kの3Dオブジェクトアセット、365以上のオブジェクトカテゴリ、655の属性、および335の関係を含んでいます。MLMの知覚能力を評価するための750Mの画像/動画質問応答ペアを生成することができます。Task-Me-Anythingは、重要な洞察を明らかにしています:オープンソースのMLMはオブジェクトと属性の認識に優れているが、空間的および時間的理解に欠けていること、各モデルが独自の強みと弱みを示すこと、より大きなモデルは一般的に性能が良いが例外も存在すること、そしてGPT4oが回転/移動するオブジェクトの認識や色の識別に課題を示すことです。
English
Benchmarks for large multimodal language models (MLMs) now serve to
simultaneously assess the general capabilities of models instead of evaluating
for a specific capability. As a result, when a developer wants to identify
which models to use for their application, they are overwhelmed by the number
of benchmarks and remain uncertain about which benchmark's results are most
reflective of their specific use case. This paper introduces Task-Me-Anything,
a benchmark generation engine which produces a benchmark tailored to a user's
needs. Task-Me-Anything maintains an extendable taxonomy of visual assets and
can programmatically generate a vast number of task instances. Additionally, it
algorithmically addresses user queries regarding MLM performance efficiently
within a computational budget. It contains 113K images, 10K videos, 2K 3D
object assets, over 365 object categories, 655 attributes, and 335
relationships. It can generate 750M image/video question-answering pairs, which
focus on evaluating MLM perceptual capabilities. Task-Me-Anything reveals
critical insights: open-source MLMs excel in object and attribute recognition
but lack spatial and temporal understanding; each model exhibits unique
strengths and weaknesses; larger models generally perform better, though
exceptions exist; and GPT4o demonstrates challenges in recognizing
rotating/moving objects and distinguishing colors.Summary
AI-Generated Summary