ChatPaper.aiChatPaper

Tiny LVLM-eHub:Bardを用いた初期段階のマルチモーダル実験

Tiny LVLM-eHub: Early Multimodal Experiments with Bard

August 7, 2023
著者: Wenqi Shao, Yutao Hu, Peng Gao, Meng Lei, Kaipeng Zhang, Fanqing Meng, Peng Xu, Siyuan Huang, Hongsheng Li, Yu Qiao, Ping Luo
cs.AI

要旨

大規模視覚言語モデル(LVLM)の最近の進展は、複雑なマルチモーダルタスクへの取り組みにおいて大きな進歩を示しています。これらの最先端の開発の中でも、GoogleのBardはその卓越したマルチモーダル能力で際立っており、さまざまな領域における包括的な理解と推論を促進しています。本研究では、LVLMのマルチモーダル能力を早期かつ包括的に評価するために、LVLM-eHubの軽量版であるTiny LVLM-eHubを提案し、特にBardに焦点を当てています。従来のバージョンと比較して、Tiny LVLM-eHubにはいくつかの魅力的な特性があります。まず、42の標準的なテキスト関連視覚ベンチマークの定量的評価を通じて、視覚知覚、視覚知識獲得、視覚推論、視覚常識、物体幻覚、および具現化知能の6つのカテゴリーのマルチモーダル能力を体系的に評価します。次に、ChatGPTアンサンブル評価(CEE)を使用してLVLMの予測を詳細に分析し、単語マッチングアプローチと比較して、より堅牢で正確な評価を実現し、人間の評価との整合性を向上させます。第三に、わずか2.1Kの画像-テキストペアで構成されており、実務者が自身のオフラインLVLMを容易に評価できるようにしています。広範な実験的分析を通じて、本研究は、Bardが物体幻覚を除くほとんどのマルチモーダル能力において従来のLVLMを上回ることを示しています。Tiny LVLM-eHubは、さまざまなLVLMのベースライン評価として機能し、マルチモーダル技術を進歩させるための革新的な戦略を奨励します。私たちのプロジェクトはhttps://github.com/OpenGVLab/Multi-Modality-Arenaで公開されています。
English
Recent advancements in Large Vision-Language Models (LVLMs) have demonstrated significant progress in tackling complex multimodal tasks. Among these cutting-edge developments, Google's Bard stands out for its remarkable multimodal capabilities, promoting comprehensive comprehension and reasoning across various domains. This work presents an early and holistic evaluation of LVLMs' multimodal abilities, with a particular focus on Bard, by proposing a lightweight variant of LVLM-eHub, named Tiny LVLM-eHub. In comparison to the vanilla version, Tiny LVLM-eHub possesses several appealing properties. Firstly, it provides a systematic assessment of six categories of multimodal capabilities, including visual perception, visual knowledge acquisition, visual reasoning, visual commonsense, object hallucination, and embodied intelligence, through quantitative evaluation of 42 standard text-related visual benchmarks. Secondly, it conducts an in-depth analysis of LVLMs' predictions using the ChatGPT Ensemble Evaluation (CEE), which leads to a robust and accurate evaluation and exhibits improved alignment with human evaluation compared to the word matching approach. Thirdly, it comprises a mere 2.1K image-text pairs, facilitating ease of use for practitioners to evaluate their own offline LVLMs. Through extensive experimental analysis, this study demonstrates that Bard outperforms previous LVLMs in most multimodal capabilities except object hallucination, to which Bard is still susceptible. Tiny LVLM-eHub serves as a baseline evaluation for various LVLMs and encourages innovative strategies aimed at advancing multimodal techniques. Our project is publicly available at https://github.com/OpenGVLab/Multi-Modality-Arena.
PDF100December 15, 2024