ChatPaper.aiChatPaper

ZeroBench: Un Benchmark Visuale Impossibile per i Modelli Multimodali di Grande Scala Contemporanei

ZeroBench: An Impossible Visual Benchmark for Contemporary Large Multimodal Models

February 13, 2025
Autori: Jonathan Roberts, Mohammad Reza Taesiri, Ansh Sharma, Akash Gupta, Samuel Roberts, Ioana Croitoru, Simion-Vlad Bogolin, Jialu Tang, Florian Langer, Vyas Raina, Vatsal Raina, Hanyi Xiong, Vishaal Udandarao, Jingyi Lu, Shiyang Chen, Sam Purkis, Tianshuo Yan, Wenye Lin, Gyungin Shin, Qiaochu Yang, Anh Totti Nguyen, Kai Han, Samuel Albanie
cs.AI

Abstract

I Large Multimodal Models (LMM) mostrano carenze significative nell'interpretazione delle immagini e, secondo alcune misure, possiedono una cognizione spaziale inferiore rispetto a bambini piccoli o animali. Nonostante ciò, ottengono punteggi elevati in molti benchmark visivi popolari, con margini di miglioramento rapidamente erosi da un'ondata continua di progressi nei modelli. Per affrontare questo problema, c'è un urgente bisogno di benchmark difficili che rimangano rilevanti più a lungo. Portiamo questa idea al limite introducendo ZeroBench, un benchmark leggero per il ragionamento visivo che è completamente impossibile per gli LMM di frontiera contemporanei. Il nostro benchmark è composto da 100 domande curate manualmente e 334 sottodomande meno difficili. Valutiamo 20 LMM su ZeroBench, tutti con un punteggio dello 0,0%, e analizziamo rigorosamente gli errori. Per incoraggiare i progressi nella comprensione visiva, rendiamo pubblico ZeroBench.
English
Large Multimodal Models (LMMs) exhibit major shortfalls when interpreting images and, by some measures, have poorer spatial cognition than small children or animals. Despite this, they attain high scores on many popular visual benchmarks, with headroom rapidly eroded by an ongoing surge of model progress. To address this, there is a pressing need for difficult benchmarks that remain relevant for longer. We take this idea to its limit by introducing ZeroBench-a lightweight visual reasoning benchmark that is entirely impossible for contemporary frontier LMMs. Our benchmark consists of 100 manually curated questions and 334 less difficult subquestions. We evaluate 20 LMMs on ZeroBench, all of which score 0.0%, and rigorously analyse the errors. To encourage progress in visual understanding, we publicly release ZeroBench.

Summary

AI-Generated Summary

PDF445February 17, 2025