マルチモーダル汎用モデルへの道:汎用レベルと汎用ベンチマークOn Path to Multimodal Generalist: General-Level and General-Bench
マルチモーダル大規模言語モデル(MLLM)は、現在、LLMの高度な能力によって急速に成長を遂げています。従来の専門家モデルとは異なり、既存のMLLMはマルチモーダル汎用モデル(Multimodal Generalist)のパラダイムへと進化しています。当初は複数のモダリティを理解する能力に限定されていたこれらのモデルは、現在では理解だけでなく、モダリティを超えた生成も可能になっています。その能力は、粗粒度から細粒度のマルチモーダル理解へ、また限定的なモダリティのサポートから任意のモダリティのサポートへと拡大しています。MLLMを評価するための多くのベンチマークが存在しますが、重要な疑問が浮かびます:タスク全体での高いパフォーマンスが、より強力なMLLM能力を示し、人間レベルのAIに近づいていると単純に仮定できるでしょうか?私たちは、その答えはそう単純ではないと主張します。このプロジェクトでは、General-Levelという評価フレームワークを導入し、MLLMのパフォーマンスと汎用性を5段階のスケールで定義し、MLLMを比較し、既存のシステムがより強力なマルチモーダル汎用モデル、そして最終的にはAGI(人工汎用知能)に向けてどの程度進歩しているかを測る方法論を提供します。このフレームワークの核心は、Synergyという概念であり、モデルが理解と生成、そして複数のモダリティにわたって一貫した能力を維持しているかを測定します。この評価をサポートするために、General-Benchを提示します。これは、700以上のタスクと325,800のインスタンスを含む、より広範なスキル、モダリティ、フォーマット、および能力を網羅しています。100以上の最先端MLLMを対象とした評価結果から、汎用モデルの能力ランキングが明らかになり、真のAIに到達するための課題が浮き彫りになりました。このプロジェクトが、次世代のマルチモーダル基盤モデルに関する将来の研究の道を開き、AGIの実現を加速するための堅牢なインフラを提供することを期待しています。プロジェクトページ: https://generalist.top/