ChatPaper.aiChatPaper

ZeroBench: Um Benchmark Visual Impossível para os Modelos Multimodais de Grande Escala Contemporâneos

ZeroBench: An Impossible Visual Benchmark for Contemporary Large Multimodal Models

February 13, 2025
Autores: Jonathan Roberts, Mohammad Reza Taesiri, Ansh Sharma, Akash Gupta, Samuel Roberts, Ioana Croitoru, Simion-Vlad Bogolin, Jialu Tang, Florian Langer, Vyas Raina, Vatsal Raina, Hanyi Xiong, Vishaal Udandarao, Jingyi Lu, Shiyang Chen, Sam Purkis, Tianshuo Yan, Wenye Lin, Gyungin Shin, Qiaochu Yang, Anh Totti Nguyen, Kai Han, Samuel Albanie
cs.AI

Resumo

Grandes Modelos Multimodais (LMMs) apresentam grandes deficiências ao interpretar imagens e, por algumas métricas, possuem cognição espacial inferior à de crianças pequenas ou animais. Apesar disso, eles atingem pontuações altas em muitos benchmarks visuais populares, com margem de melhoria rapidamente reduzida por um surto contínuo de progresso nos modelos. Para abordar isso, há uma necessidade urgente de benchmarks difíceis que permaneçam relevantes por mais tempo. Levamos essa ideia ao limite ao introduzir o ZeroBench — um benchmark leve de raciocínio visual que é completamente impossível para os LMMs de fronteira contemporâneos. Nosso benchmark consiste em 100 questões curadas manualmente e 334 subquestões menos difíceis. Avaliamos 20 LMMs no ZeroBench, todos os quais obtiveram 0,0%, e analisamos rigorosamente os erros. Para incentivar o progresso na compreensão visual, disponibilizamos publicamente o ZeroBench.
English
Large Multimodal Models (LMMs) exhibit major shortfalls when interpreting images and, by some measures, have poorer spatial cognition than small children or animals. Despite this, they attain high scores on many popular visual benchmarks, with headroom rapidly eroded by an ongoing surge of model progress. To address this, there is a pressing need for difficult benchmarks that remain relevant for longer. We take this idea to its limit by introducing ZeroBench-a lightweight visual reasoning benchmark that is entirely impossible for contemporary frontier LMMs. Our benchmark consists of 100 manually curated questions and 334 less difficult subquestions. We evaluate 20 LMMs on ZeroBench, all of which score 0.0%, and rigorously analyse the errors. To encourage progress in visual understanding, we publicly release ZeroBench.

Summary

AI-Generated Summary

PDF445February 17, 2025