VaseVQA : Agent multimodal et benchmark pour la céramique de la Grèce antique
VaseVQA: Multimodal Agent and Benchmark for Ancient Greek Pottery
September 21, 2025
papers.authors: Jinchao Ge, Tengfei Cheng, Biao Wu, Zeyu Zhang, Shiya Huang, Judith Bishop, Gillian Shepherd, Meng Fang, Ling Chen, Yang Zhao
cs.AI
papers.abstract
L'analyse des artefacts du patrimoine culturel reste un défi pour les MLLM (modèles de langage multilingues) : les modèles généraux manquent d'expertise dans le domaine, et l'apprentissage par fine-tuning supervisé (SFT) a tendance à sur-adapter des motifs superficiels, produisant un raisonnement fragile pour l'authentification et l'attribution historique. Cela soulève la question de savoir comment doter les MLLM d'un raisonnement robuste et expert pour la poterie grecque antique. Nous présentons VaseVL, un système SFT-puis-RL qui transforme l'évaluation en supervision : nous construisons une taxonomie des types de questions, sondons le modèle SFT pour localiser les lacunes de performance spécifiques à chaque type, et optimisons avec des récompenses conditionnées par le type et orientées vers la compositionnalité, ciblant ces lacunes. Nous publions également VaseVQA, un benchmark complet de 31 773 images conçu pour explorer une compréhension approfondie. Les expériences montrent des résultats de pointe en classification de style et en attribution historique, avec des gains significatifs en robustesse compositionnelle par rapport aux modèles SFT seuls, validant ainsi l'ingénierie de récompenses guidée par le diagnostic et conditionnée par la taxonomie, et fournissant une ressource réutilisable pour les recherches futures. Le code et le jeu de données seront disponibles à l'adresse suivante : https://github.com/AIGeeksGroup/VaseVQA.
English
Analyzing cultural-heritage artifacts remains challenging for MLLMs: general
models lack domain expertise, and SFT often overfits superficial patterns,
yielding brittle reasoning for authentication and historical attribution. This
raises the question of how to equip MLLMs with robust, expert-level reasoning
for ancient Greek pottery. We present VaseVL, an SFT-then-RL system that turns
evaluation into supervision: we construct a taxonomy of question types, probe
the SFT model to localize type-specific performance gaps, and optimize with
type-conditioned, compositionality-oriented rewards targeting those gaps. We
also release VaseVQA, a comprehensive benchmark of 31,773 images designed to
probe deep understanding. Experiments show state-of-the-art results on style
classification and historical attribution with marked gains in compositional
robustness over SFT-only baselines, validating diagnosis-guided,
taxonomy-conditioned reward engineering and providing a reusable resource for
future research. Code and dataset will be available at
https://github.com/AIGeeksGroup/VaseVQA.