ChatPaper.aiChatPaper

LiveXiv -- Arxiv論文内容に基づくマルチモーダルなライブベンチマーク

LiveXiv -- A Multi-Modal Live Benchmark Based on Arxiv Papers Content

October 14, 2024
著者: Nimrod Shabtay, Felipe Maia Polo, Sivan Doveh, Wei Lin, M. Jehanzeb Mirza, Leshem Chosen, Mikhail Yurochkin, Yuekai Sun, Assaf Arbelle, Leonid Karlinsky, Raja Giryes
cs.AI

要旨

ウェブからスクレイピングしたデータを用いたマルチモーダルモデルの大規模トレーニングは、これらのモデルに必要な世界知識を注入し、複数の後段タスクで効果的に機能するための優れた有用性を示しています。ただし、ウェブからデータをスクレイピングする際の欠点の1つは、これらのモデルの能力がしばしば評価されるベンチマークの潜在的な犠牲です。テストデータの汚染を防ぎ、これらの基盤モデルの能力を真にテストするために、私たちはLiveXivを提案します。これは、科学的なArXiv論文に基づくスケーラブルで進化するライブベンチマークです。LiveXivは、任意のタイムスタンプで特定の領域の原稿にアクセスし、ビジュアルな質問-回答ペア(VQA)を自動生成することを提案しています。これは、グラフ、チャート、表などの原稿内のマルチモーダルコンテンツを使用して、ヒューマン・イン・ザ・ループなしに行われます。さらに、我々は、進化するベンチマーク上のすべてのモデルのパフォーマンスを、モデルのサブセットの評価のみを使用して推定する効率的な評価手法を導入しています。これにより、全体的な評価コストが大幅に削減されます。私たちは、初版のベンチマークで複数のオープンおよびプロプライエタリな大規模マルチモーダルモデル(LMMs)をベンチマークに掲載し、その難しさを示し、モデルの真の能力を明らかにし、汚染を回避しています。最後に、高品質への取り組みとして、手動で検証されたサブセットを収集し評価しています。全体的な結果を自動注釈と比較することで、パフォーマンスのばらつきは実際に最小限であることを確認しました(<2.5%)。私たちのデータセットはHuggingFaceでオンラインで利用可能であり、コードはこちらで入手可能です。
English
The large-scale training of multi-modal models on data scraped from the web has shown outstanding utility in infusing these models with the required world knowledge to perform effectively on multiple downstream tasks. However, one downside of scraping data from the web can be the potential sacrifice of the benchmarks on which the abilities of these models are often evaluated. To safeguard against test data contamination and to truly test the abilities of these foundation models we propose LiveXiv: A scalable evolving live benchmark based on scientific ArXiv papers. LiveXiv accesses domain-specific manuscripts at any given timestamp and proposes to automatically generate visual question-answer pairs (VQA). This is done without any human-in-the-loop, using the multi-modal content in the manuscripts, like graphs, charts, and tables. Moreover, we introduce an efficient evaluation approach that estimates the performance of all models on the evolving benchmark using evaluations of only a subset of models. This significantly reduces the overall evaluation cost. We benchmark multiple open and proprietary Large Multi-modal Models (LMMs) on the first version of our benchmark, showing its challenging nature and exposing the models true abilities, avoiding contamination. Lastly, in our commitment to high quality, we have collected and evaluated a manually verified subset. By comparing its overall results to our automatic annotations, we have found that the performance variance is indeed minimal (<2.5%). Our dataset is available online on HuggingFace, and our code will be available here.
PDF282November 16, 2024