VaseVQA : Agent multimodal et benchmark pour la céramique de la Grèce antique

papers.abstract

L'analyse des artefacts du patrimoine culturel reste un défi pour les MLLM (modèles de langage multilingues) : les modèles généraux manquent d'expertise dans le domaine, et l'apprentissage par fine-tuning supervisé (SFT) a tendance à sur-adapter des motifs superficiels, produisant un raisonnement fragile pour l'authentification et l'attribution historique. Cela soulève la question de savoir comment doter les MLLM d'un raisonnement robuste et expert pour la poterie grecque antique. Nous présentons VaseVL, un système SFT-puis-RL qui transforme l'évaluation en supervision : nous construisons une taxonomie des types de questions, sondons le modèle SFT pour localiser les lacunes de performance spécifiques à chaque type, et optimisons avec des récompenses conditionnées par le type et orientées vers la compositionnalité, ciblant ces lacunes. Nous publions également VaseVQA, un benchmark complet de 31 773 images conçu pour explorer une compréhension approfondie. Les expériences montrent des résultats de pointe en classification de style et en attribution historique, avec des gains significatifs en robustesse compositionnelle par rapport aux modèles SFT seuls, validant ainsi l'ingénierie de récompenses guidée par le diagnostic et conditionnée par la taxonomie, et fournissant une ressource réutilisable pour les recherches futures. Le code et le jeu de données seront disponibles à l'adresse suivante : https://github.com/AIGeeksGroup/VaseVQA.

English

Analyzing cultural-heritage artifacts remains challenging for MLLMs: general models lack domain expertise, and SFT often overfits superficial patterns, yielding brittle reasoning for authentication and historical attribution. This raises the question of how to equip MLLMs with robust, expert-level reasoning for ancient Greek pottery. We present VaseVL, an SFT-then-RL system that turns evaluation into supervision: we construct a taxonomy of question types, probe the SFT model to localize type-specific performance gaps, and optimize with type-conditioned, compositionality-oriented rewards targeting those gaps. We also release VaseVQA, a comprehensive benchmark of 31,773 images designed to probe deep understanding. Experiments show state-of-the-art results on style classification and historical attribution with marked gains in compositional robustness over SFT-only baselines, validating diagnosis-guided, taxonomy-conditioned reward engineering and providing a reusable resource for future research. Code and dataset will be available at https://github.com/AIGeeksGroup/VaseVQA.

VaseVQA : Agent multimodal et benchmark pour la céramique de la Grèce antique

VaseVQA: Multimodal Agent and Benchmark for Ancient Greek Pottery

papers.abstract

Support