ChatPaper.aiChatPaper

ZeroBench:現代の大規模マルチモーダルモデルにとって不可能な視覚ベンチマーク

ZeroBench: An Impossible Visual Benchmark for Contemporary Large Multimodal Models

February 13, 2025
著者: Jonathan Roberts, Mohammad Reza Taesiri, Ansh Sharma, Akash Gupta, Samuel Roberts, Ioana Croitoru, Simion-Vlad Bogolin, Jialu Tang, Florian Langer, Vyas Raina, Vatsal Raina, Hanyi Xiong, Vishaal Udandarao, Jingyi Lu, Shiyang Chen, Sam Purkis, Tianshuo Yan, Wenye Lin, Gyungin Shin, Qiaochu Yang, Anh Totti Nguyen, Kai Han, Samuel Albanie
cs.AI

要旨

大規模マルチモーダルモデル(LMMs)は、画像の解釈において重大な欠陥を示し、一部の指標では幼児や動物よりも空間認知能力が劣っています。それにもかかわらず、これらのモデルは多くの人気のある視覚ベンチマークで高いスコアを達成しており、モデルの進歩によってその余裕が急速に失われつつあります。この問題に対処するため、長期間にわたって関連性を保つ難しいベンチマークが緊急に必要とされています。私たちはこの考えを極限まで推し進め、現代の最先端LMMsにとって完全に不可能な軽量な視覚推論ベンチマーク「ZeroBench」を導入します。このベンチマークは、手作業で厳選された100の質問と、それより難易度の低い334のサブ質問で構成されています。私たちは20のLMMsをZeroBenchで評価し、すべてのモデルが0.0%のスコアを記録し、そのエラーを厳密に分析しました。視覚理解の進歩を促進するため、ZeroBenchを公開します。
English
Large Multimodal Models (LMMs) exhibit major shortfalls when interpreting images and, by some measures, have poorer spatial cognition than small children or animals. Despite this, they attain high scores on many popular visual benchmarks, with headroom rapidly eroded by an ongoing surge of model progress. To address this, there is a pressing need for difficult benchmarks that remain relevant for longer. We take this idea to its limit by introducing ZeroBench-a lightweight visual reasoning benchmark that is entirely impossible for contemporary frontier LMMs. Our benchmark consists of 100 manually curated questions and 334 less difficult subquestions. We evaluate 20 LMMs on ZeroBench, all of which score 0.0%, and rigorously analyse the errors. To encourage progress in visual understanding, we publicly release ZeroBench.

Summary

AI-Generated Summary

PDF445February 17, 2025