VaseVQA: Multimodale Agent en Benchmark voor Oud-Grieks Aardewerk
VaseVQA: Multimodal Agent and Benchmark for Ancient Greek Pottery
September 21, 2025
Auteurs: Jinchao Ge, Tengfei Cheng, Biao Wu, Zeyu Zhang, Shiya Huang, Judith Bishop, Gillian Shepherd, Meng Fang, Ling Chen, Yang Zhao
cs.AI
Samenvatting
Het analyseren van cultureel-erfgoedartefacten blijft een uitdaging voor MLLM's: algemene modellen missen domeinexpertise, en SFT past zich vaak te veel aan oppervlakkige patronen aan, wat leidt tot broos redeneren voor authenticatie en historische toeschrijving. Dit roept de vraag op hoe MLLM's kunnen worden uitgerust met robuust, expertniveau redeneren voor oud-Grieks aardewerk. Wij presenteren VaseVL, een SFT-then-RL-systeem dat evaluatie omzet in begeleiding: we construeren een taxonomie van vraagtypen, onderzoeken het SFT-model om prestatiekloofjes per type te lokaliseren, en optimaliseren met type-geconditioneerde, compositiegericht beloningen die zich richten op die kloofjes. We brengen ook VaseVQA uit, een uitgebreide benchmark van 31.773 afbeeldingen ontworpen om diepgaand begrip te onderzoeken. Experimenten tonen state-of-the-art resultaten voor stijlclassificatie en historische toeschrijving met aanzienlijke verbeteringen in compositorische robuustheid ten opzichte van SFT-only-baselines, wat diagnose-geleide, taxonomie-geconditioneerde beloningsengineering valideert en een herbruikbare bron biedt voor toekomstig onderzoek. Code en dataset zullen beschikbaar zijn op https://github.com/AIGeeksGroup/VaseVQA.
English
Analyzing cultural-heritage artifacts remains challenging for MLLMs: general
models lack domain expertise, and SFT often overfits superficial patterns,
yielding brittle reasoning for authentication and historical attribution. This
raises the question of how to equip MLLMs with robust, expert-level reasoning
for ancient Greek pottery. We present VaseVL, an SFT-then-RL system that turns
evaluation into supervision: we construct a taxonomy of question types, probe
the SFT model to localize type-specific performance gaps, and optimize with
type-conditioned, compositionality-oriented rewards targeting those gaps. We
also release VaseVQA, a comprehensive benchmark of 31,773 images designed to
probe deep understanding. Experiments show state-of-the-art results on style
classification and historical attribution with marked gains in compositional
robustness over SFT-only baselines, validating diagnosis-guided,
taxonomy-conditioned reward engineering and providing a reusable resource for
future research. Code and dataset will be available at
https://github.com/AIGeeksGroup/VaseVQA.