Visuele Esthetische Benchmark: Kunnen Frontiermodellen Schoonheid Beoordelen?

Samenvatting

Multimodale grote taalmodellen (MLLM's) worden nu routinematig ingezet voor visueel begrip, generatie en curatie. Een aanzienlijk deel van deze toepassingen vereist een expliciet esthetisch oordeel. De meeste bestaande oplossingen reduceren dit oordeel tot het voorspellen van een scalaire score voor één enkele afbeelding. Wij vragen ons eerst af of dergelijke scores getrouw een comparatieve voorkeur weergeven: in een gecontroleerde studie met acht expert-annotatoren komen op scores gebaseerde rangschikkingen slecht overeen met de directe vergelijkingen van dezelfde annotatoren, terwijl directe rangschikking een aanzienlijk hogere inter-annotator-overeenstemming oplevert voor labels voor beste en slechtste afbeeldingen. Gemotiveerd door deze bevinding introduceren we de Visual Aesthetic Benchmark (VAB), die esthetische evaluatie giet in een comparatieve selectie uit kandidaatsets met gematchte onderwerpen. VAB bevat 400 taken en 1.195 afbeeldingen uit de domeinen beeldende kunst, fotografie en illustratie, met labels afgeleid van de consensus van 10 onafhankelijke expertbeoordelaars per taak. Bij het evalueren van 20 state-of-the-art MLLM's en zes specifieke visuele kwaliteitsbeloningsmodellen vinden we dat het sterkste systeem zowel de beste als de slechtste afbeelding correct identificeert over drie willekeurige permutaties van de kandidaatvolgorde in slechts 26,5% van de taken, ver onder de 68,9% die door menselijke experts wordt behaald. Het finetunen van een model met 35B parameters op 2.000 expertvoorbeelden brengt de nauwkeurigheid ervan dicht bij die van een open-weight model met 397B parameters, wat suggereert dat het comparatieve signaal in VAB overdraagbaar is. Samen leggen deze resultaten een duidelijke en meetbare kloof bloot tussen huidige multimodale modellen en expert-esthetisch oordeel, en VAB biedt het eerste setgebaseerde, op experts gefundeerde testbed waarbinnen die kloof kan worden gevolgd en gedicht.

English

Multimodal large language models (MLLMs) are now routinely deployed for visual understanding, generation, and curation. A substantial fraction of these applications require an explicit aesthetic judgment. Most existing solutions reduce this judgment to predicting a scalar score for a single image. We first ask whether such scores faithfully capture comparative preference: in a controlled study with eight expert annotators, score-derived rankings align poorly with the same annotators' direct comparisons, while direct ranking yields substantially higher inter-annotator agreement on best- and worst-image labels. Motivated by this finding, we introduce the Visual Aesthetic Benchmark (VAB), which casts aesthetic evaluation as comparative selection over candidate sets with matched subject matter. VAB contains 400 tasks and 1,195 images across fine art, photography, and illustration, with labels derived from the consensus of 10 independent expert judges per task. Evaluating 20 frontier MLLMs and six dedicated visual-quality reward models, we find that the strongest system identifies both the best and the worst image correctly across three random permutations of the candidate order in only 26.5% of tasks, far below the 68.9% achieved by human experts. Fine-tuning a 35B-parameter model on 2,000 expert examples brings its accuracy close to that of a 397B-parameter open-weight model, suggesting that the comparative signal in VAB is transferable. Together, these results expose a clear and measurable gap between current multimodal models and expert aesthetic judgment, and VAB provides the first set-based, expert-grounded testbed on which that gap can be tracked and closed.