ChatPaper.aiChatPaper

ZeroBench: Невозможный визуальный бенчмарк для современных крупных мультимодальных моделей

ZeroBench: An Impossible Visual Benchmark for Contemporary Large Multimodal Models

February 13, 2025
Авторы: Jonathan Roberts, Mohammad Reza Taesiri, Ansh Sharma, Akash Gupta, Samuel Roberts, Ioana Croitoru, Simion-Vlad Bogolin, Jialu Tang, Florian Langer, Vyas Raina, Vatsal Raina, Hanyi Xiong, Vishaal Udandarao, Jingyi Lu, Shiyang Chen, Sam Purkis, Tianshuo Yan, Wenye Lin, Gyungin Shin, Qiaochu Yang, Anh Totti Nguyen, Kai Han, Samuel Albanie
cs.AI

Аннотация

Крупные мультимодальные модели (LMM) демонстрируют значительные недостатки в интерпретации изображений и, по некоторым критериям, обладают более слабым пространственным восприятием, чем маленькие дети или животные. Несмотря на это, они достигают высоких результатов на многих популярных визуальных тестах, при этом запас для улучшения быстро сокращается из-за стремительного прогресса моделей. Чтобы решить эту проблему, существует острая необходимость в сложных тестах, которые остаются актуальными в течение более длительного времени. Мы доводим эту идею до предела, представляя ZeroBench — легковесный тест на визуальное мышление, который полностью недоступен для современных передовых LMM. Наш тест состоит из 100 вручную отобранных вопросов и 334 менее сложных подвопросов. Мы оцениваем 20 LMM на ZeroBench, и все они показывают результат 0.0%, после чего тщательно анализируем ошибки. Чтобы стимулировать прогресс в области визуального понимания, мы публикуем ZeroBench в открытом доступе.
English
Large Multimodal Models (LMMs) exhibit major shortfalls when interpreting images and, by some measures, have poorer spatial cognition than small children or animals. Despite this, they attain high scores on many popular visual benchmarks, with headroom rapidly eroded by an ongoing surge of model progress. To address this, there is a pressing need for difficult benchmarks that remain relevant for longer. We take this idea to its limit by introducing ZeroBench-a lightweight visual reasoning benchmark that is entirely impossible for contemporary frontier LMMs. Our benchmark consists of 100 manually curated questions and 334 less difficult subquestions. We evaluate 20 LMMs on ZeroBench, all of which score 0.0%, and rigorously analyse the errors. To encourage progress in visual understanding, we publicly release ZeroBench.

Summary

AI-Generated Summary

PDF445February 17, 2025