ChatPaper.aiChatPaper

ZeroBench: Ein unmöglicher visueller Benchmark für zeitgenössische große multimodale Modelle

ZeroBench: An Impossible Visual Benchmark for Contemporary Large Multimodal Models

February 13, 2025
papers.authors: Jonathan Roberts, Mohammad Reza Taesiri, Ansh Sharma, Akash Gupta, Samuel Roberts, Ioana Croitoru, Simion-Vlad Bogolin, Jialu Tang, Florian Langer, Vyas Raina, Vatsal Raina, Hanyi Xiong, Vishaal Udandarao, Jingyi Lu, Shiyang Chen, Sam Purkis, Tianshuo Yan, Wenye Lin, Gyungin Shin, Qiaochu Yang, Anh Totti Nguyen, Kai Han, Samuel Albanie
cs.AI

papers.abstract

Große multimodale Modelle (LMMs) weisen erhebliche Mängel bei der Interpretation von Bildern auf und haben nach einigen Maßstäben eine schlechtere räumliche Kognition als kleine Kinder oder Tiere. Trotzdem erzielen sie hohe Punktzahlen in vielen gängigen visuellen Benchmarks, wobei der Spielraum durch einen kontinuierlichen Fortschritt der Modelle schnell verringert wird. Um dem entgegenzuwirken, besteht ein dringender Bedarf an anspruchsvollen Benchmarks, die länger relevant bleiben. Wir bringen diese Idee an ihre Grenzen, indem wir ZeroBench einführen - einen leichtgewichtigen visuellen Denk-Benchmark, der für zeitgenössische Spitzen-LMMs vollständig unmöglich ist. Unser Benchmark besteht aus 100 manuell kuratierten Fragen und 334 weniger schwierigen Teilfragen. Wir bewerten 20 LMMs auf ZeroBench, von denen alle 0,0% erreichen, und analysieren die Fehler gründlich. Um Fortschritte im visuellen Verständnis zu fördern, veröffentlichen wir ZeroBench öffentlich.
English
Large Multimodal Models (LMMs) exhibit major shortfalls when interpreting images and, by some measures, have poorer spatial cognition than small children or animals. Despite this, they attain high scores on many popular visual benchmarks, with headroom rapidly eroded by an ongoing surge of model progress. To address this, there is a pressing need for difficult benchmarks that remain relevant for longer. We take this idea to its limit by introducing ZeroBench-a lightweight visual reasoning benchmark that is entirely impossible for contemporary frontier LMMs. Our benchmark consists of 100 manually curated questions and 334 less difficult subquestions. We evaluate 20 LMMs on ZeroBench, all of which score 0.0%, and rigorously analyse the errors. To encourage progress in visual understanding, we publicly release ZeroBench.
PDF445February 17, 2025