ZeroBench: Невозможный визуальный бенчмарк для современных крупных мультимодальных моделей
ZeroBench: An Impossible Visual Benchmark for Contemporary Large Multimodal Models
February 13, 2025
Авторы: Jonathan Roberts, Mohammad Reza Taesiri, Ansh Sharma, Akash Gupta, Samuel Roberts, Ioana Croitoru, Simion-Vlad Bogolin, Jialu Tang, Florian Langer, Vyas Raina, Vatsal Raina, Hanyi Xiong, Vishaal Udandarao, Jingyi Lu, Shiyang Chen, Sam Purkis, Tianshuo Yan, Wenye Lin, Gyungin Shin, Qiaochu Yang, Anh Totti Nguyen, Kai Han, Samuel Albanie
cs.AI
Аннотация
Крупные мультимодальные модели (LMM) демонстрируют значительные недостатки в интерпретации изображений и, по некоторым критериям, обладают более слабым пространственным восприятием, чем маленькие дети или животные. Несмотря на это, они достигают высоких результатов на многих популярных визуальных тестах, при этом запас для улучшения быстро сокращается из-за стремительного прогресса моделей. Чтобы решить эту проблему, существует острая необходимость в сложных тестах, которые остаются актуальными в течение более длительного времени. Мы доводим эту идею до предела, представляя ZeroBench — легковесный тест на визуальное мышление, который полностью недоступен для современных передовых LMM. Наш тест состоит из 100 вручную отобранных вопросов и 334 менее сложных подвопросов. Мы оцениваем 20 LMM на ZeroBench, и все они показывают результат 0.0%, после чего тщательно анализируем ошибки. Чтобы стимулировать прогресс в области визуального понимания, мы публикуем ZeroBench в открытом доступе.
English
Large Multimodal Models (LMMs) exhibit major shortfalls when interpreting
images and, by some measures, have poorer spatial cognition than small children
or animals. Despite this, they attain high scores on many popular visual
benchmarks, with headroom rapidly eroded by an ongoing surge of model progress.
To address this, there is a pressing need for difficult benchmarks that remain
relevant for longer. We take this idea to its limit by introducing ZeroBench-a
lightweight visual reasoning benchmark that is entirely impossible for
contemporary frontier LMMs. Our benchmark consists of 100 manually curated
questions and 334 less difficult subquestions. We evaluate 20 LMMs on
ZeroBench, all of which score 0.0%, and rigorously analyse the errors. To
encourage progress in visual understanding, we publicly release ZeroBench.Summary
AI-Generated Summary