LiveXiv - Ein Multi-Modaler Live-Benchmark basierend auf dem Inhalt von Arxiv-Papieren
LiveXiv -- A Multi-Modal Live Benchmark Based on Arxiv Papers Content
October 14, 2024
Autoren: Nimrod Shabtay, Felipe Maia Polo, Sivan Doveh, Wei Lin, M. Jehanzeb Mirza, Leshem Chosen, Mikhail Yurochkin, Yuekai Sun, Assaf Arbelle, Leonid Karlinsky, Raja Giryes
cs.AI
Zusammenfassung
Das groß angelegte Training von multimodalen Modellen auf aus dem Web gescrapten Daten hat sich als äußerst nützlich erwiesen, um diesen Modellen das erforderliche Weltwissen zu vermitteln, um effektiv bei verschiedenen nachgelagerten Aufgaben zu agieren. Ein Nachteil beim Scrapen von Webdaten kann jedoch der potenzielle Verzicht auf die Benchmarks sein, anhand derer die Fähigkeiten dieser Modelle häufig bewertet werden. Um einer Kontamination der Testdaten entgegenzuwirken und die Fähigkeiten dieser Grundlagenmodelle wirklich zu testen, schlagen wir LiveXiv vor: Ein skalierbarer, sich entwickelnder Live-Benchmark basierend auf wissenschaftlichen ArXiv-Papieren. LiveXiv greift zu einem beliebigen Zeitpunkt auf domänenspezifische Manuskripte zu und schlägt vor, visuelle Frage-Antwort-Paare (VQA) automatisch zu generieren. Dies erfolgt ohne menschliches Eingreifen und unter Verwendung des multimodalen Inhalts in den Manuskripten, wie Grafiken, Diagramme und Tabellen. Darüber hinaus stellen wir einen effizienten Bewertungsansatz vor, der die Leistung aller Modelle auf dem sich entwickelnden Benchmark schätzt, indem nur eine Teilmenge der Modelle bewertet wird. Dies reduziert die Gesamtbewertungskosten erheblich. Wir bewerten mehrere offene und proprietäre Large Multi-modal Models (LMMs) anhand der ersten Version unseres Benchmarks, um seine anspruchsvolle Natur zu zeigen und die wahren Fähigkeiten der Modelle aufzudecken, um Kontamination zu vermeiden. Schließlich haben wir uns der hohen Qualität verpflichtet und eine manuell überprüfte Teilmenge gesammelt und bewertet. Durch den Vergleich der Gesamtergebnisse mit unseren automatischen Annotationen haben wir festgestellt, dass die Leistungsvarianz tatsächlich minimal ist (<2,5%). Unser Datensatz ist online auf HuggingFace verfügbar, und unser Code wird hier verfügbar sein.
English
The large-scale training of multi-modal models on data scraped from the web
has shown outstanding utility in infusing these models with the required world
knowledge to perform effectively on multiple downstream tasks. However, one
downside of scraping data from the web can be the potential sacrifice of the
benchmarks on which the abilities of these models are often evaluated. To
safeguard against test data contamination and to truly test the abilities of
these foundation models we propose LiveXiv: A scalable evolving live benchmark
based on scientific ArXiv papers. LiveXiv accesses domain-specific manuscripts
at any given timestamp and proposes to automatically generate visual
question-answer pairs (VQA). This is done without any human-in-the-loop, using
the multi-modal content in the manuscripts, like graphs, charts, and tables.
Moreover, we introduce an efficient evaluation approach that estimates the
performance of all models on the evolving benchmark using evaluations of only a
subset of models. This significantly reduces the overall evaluation cost. We
benchmark multiple open and proprietary Large Multi-modal Models (LMMs) on the
first version of our benchmark, showing its challenging nature and exposing the
models true abilities, avoiding contamination. Lastly, in our commitment to
high quality, we have collected and evaluated a manually verified subset. By
comparing its overall results to our automatic annotations, we have found that
the performance variance is indeed minimal (<2.5%). Our dataset is available
online on HuggingFace, and our code will be available here.Summary
AI-Generated Summary