ChatPaper.aiChatPaper

VaseVQA: Agente Multimodale e Benchmark per la Ceramica dell'Antica Grecia

VaseVQA: Multimodal Agent and Benchmark for Ancient Greek Pottery

September 21, 2025
Autori: Jinchao Ge, Tengfei Cheng, Biao Wu, Zeyu Zhang, Shiya Huang, Judith Bishop, Gillian Shepherd, Meng Fang, Ling Chen, Yang Zhao
cs.AI

Abstract

L'analisi dei manufatti del patrimonio culturale rimane una sfida per i MLLM (Modelli Multilingue di Apprendimento): i modelli generali mancano di competenze specifiche del dominio, e il Fine-Tuning Supervisionato (SFT) spesso si adatta eccessivamente a pattern superficiali, producendo un ragionamento fragile per l'autenticazione e l'attribuzione storica. Ciò solleva la questione di come dotare i MLLM di un ragionamento robusto e di livello esperto per la ceramica greca antica. Presentiamo VaseVL, un sistema SFT-then-RL che trasforma la valutazione in supervisione: costruiamo una tassonomia dei tipi di domande, esploriamo il modello SFT per localizzare le lacune di prestazioni specifiche per tipo, e ottimizziamo con ricompense condizionate al tipo e orientate alla composizionalità, mirate a colmare tali lacune. Rilasciamo inoltre VaseVQA, un benchmark completo di 31.773 immagini progettato per esplorare una comprensione profonda. Gli esperimenti mostrano risultati all'avanguardia nella classificazione dello stile e nell'attribuzione storica, con guadagni significativi nella robustezza composizionale rispetto ai baseline basati esclusivamente su SFT, validando l'ingegneria delle ricompense guidata dalla diagnosi e condizionata dalla tassonomia, e fornendo una risorsa riutilizzabile per la ricerca futura. Codice e dataset saranno disponibili su https://github.com/AIGeeksGroup/VaseVQA.
English
Analyzing cultural-heritage artifacts remains challenging for MLLMs: general models lack domain expertise, and SFT often overfits superficial patterns, yielding brittle reasoning for authentication and historical attribution. This raises the question of how to equip MLLMs with robust, expert-level reasoning for ancient Greek pottery. We present VaseVL, an SFT-then-RL system that turns evaluation into supervision: we construct a taxonomy of question types, probe the SFT model to localize type-specific performance gaps, and optimize with type-conditioned, compositionality-oriented rewards targeting those gaps. We also release VaseVQA, a comprehensive benchmark of 31,773 images designed to probe deep understanding. Experiments show state-of-the-art results on style classification and historical attribution with marked gains in compositional robustness over SFT-only baselines, validating diagnosis-guided, taxonomy-conditioned reward engineering and providing a reusable resource for future research. Code and dataset will be available at https://github.com/AIGeeksGroup/VaseVQA.
PDF12September 23, 2025