VaseVQA: Multimodaler Agent und Benchmark für antike griechische Keramik
VaseVQA: Multimodal Agent and Benchmark for Ancient Greek Pottery
September 21, 2025
papers.authors: Jinchao Ge, Tengfei Cheng, Biao Wu, Zeyu Zhang, Shiya Huang, Judith Bishop, Gillian Shepherd, Meng Fang, Ling Chen, Yang Zhao
cs.AI
papers.abstract
Die Analyse von Kulturerbe-Artefakten bleibt eine Herausforderung für MLLMs (Multimodale Large Language Models): Allgemeine Modelle verfügen nicht über domänenspezifisches Fachwissen, und Supervised Fine-Tuning (SFT) führt oft zu einer Überanpassung an oberflächliche Muster, was eine brüchige Argumentation für Authentifizierung und historische Zuschreibung zur Folge hat. Dies wirft die Frage auf, wie MLLMs mit einer robusten, expertenähnlichen Argumentationsfähigkeit für antike griechische Keramik ausgestattet werden können. Wir präsentieren VaseVL, ein SFT-then-RL-System, das die Evaluation in Supervision umwandelt: Wir konstruieren eine Taxonomie von Fragentypen, untersuchen das SFT-Modell, um typspezifische Leistungslücken zu lokalisieren, und optimieren mit typspezifischen, kompositionalitätsorientierten Belohnungen, die auf diese Lücken abzielen. Zudem veröffentlichen wir VaseVQA, einen umfassenden Benchmark mit 31.773 Bildern, der darauf abzielt, ein tiefes Verständnis zu testen. Experimente zeigen state-of-the-art Ergebnisse in der Stilklassifikation und historischen Zuschreibung mit deutlichen Verbesserungen in der kompositionellen Robustheit gegenüber reinen SFT-Baselines. Dies bestätigt die diagnosegesteuerte, taxonomiebasierte Belohnungsoptimierung und bietet eine wiederverwendbare Ressource für zukünftige Forschung. Code und Datensatz werden unter https://github.com/AIGeeksGroup/VaseVQA verfügbar sein.
English
Analyzing cultural-heritage artifacts remains challenging for MLLMs: general
models lack domain expertise, and SFT often overfits superficial patterns,
yielding brittle reasoning for authentication and historical attribution. This
raises the question of how to equip MLLMs with robust, expert-level reasoning
for ancient Greek pottery. We present VaseVL, an SFT-then-RL system that turns
evaluation into supervision: we construct a taxonomy of question types, probe
the SFT model to localize type-specific performance gaps, and optimize with
type-conditioned, compositionality-oriented rewards targeting those gaps. We
also release VaseVQA, a comprehensive benchmark of 31,773 images designed to
probe deep understanding. Experiments show state-of-the-art results on style
classification and historical attribution with marked gains in compositional
robustness over SFT-only baselines, validating diagnosis-guided,
taxonomy-conditioned reward engineering and providing a reusable resource for
future research. Code and dataset will be available at
https://github.com/AIGeeksGroup/VaseVQA.