VaseVQA: Agente Multimodal e Benchmark para Cerâmica da Grécia Antiga
VaseVQA: Multimodal Agent and Benchmark for Ancient Greek Pottery
September 21, 2025
Autores: Jinchao Ge, Tengfei Cheng, Biao Wu, Zeyu Zhang, Shiya Huang, Judith Bishop, Gillian Shepherd, Meng Fang, Ling Chen, Yang Zhao
cs.AI
Resumo
A análise de artefatos do patrimônio cultural continua sendo um desafio para os MLLMs (Modelos Multimodais de Linguagem): modelos gerais carecem de expertise no domínio, e o Fine-Tuning Supervisionado (SFT) frequentemente superajusta padrões superficiais, resultando em raciocínios frágeis para autenticação e atribuição histórica. Isso levanta a questão de como equipar os MLLMs com raciocínios robustos e de nível especialista para cerâmica grega antiga. Apresentamos o VaseVL, um sistema SFT-then-RL (Fine-Tuning Supervisionado seguido de Aprendizado por Reforço) que transforma a avaliação em supervisão: construímos uma taxonomia de tipos de perguntas, investigamos o modelo SFT para localizar lacunas de desempenho específicas por tipo e otimizamos com recompensas orientadas à composicionalidade e condicionadas por tipo, visando essas lacunas. Também lançamos o VaseVQA, um benchmark abrangente com 31.773 imagens projetado para investigar a compreensão profunda. Os experimentos mostram resultados de ponta em classificação de estilo e atribuição histórica, com ganhos significativos em robustez composicional em relação às baselines apenas com SFT, validando a engenharia de recompensas guiada por diagnóstico e condicionada por taxonomia, além de fornecer um recurso reutilizável para pesquisas futuras. O código e o conjunto de dados estarão disponíveis em https://github.com/AIGeeksGroup/VaseVQA.
English
Analyzing cultural-heritage artifacts remains challenging for MLLMs: general
models lack domain expertise, and SFT often overfits superficial patterns,
yielding brittle reasoning for authentication and historical attribution. This
raises the question of how to equip MLLMs with robust, expert-level reasoning
for ancient Greek pottery. We present VaseVL, an SFT-then-RL system that turns
evaluation into supervision: we construct a taxonomy of question types, probe
the SFT model to localize type-specific performance gaps, and optimize with
type-conditioned, compositionality-oriented rewards targeting those gaps. We
also release VaseVQA, a comprehensive benchmark of 31,773 images designed to
probe deep understanding. Experiments show state-of-the-art results on style
classification and historical attribution with marked gains in compositional
robustness over SFT-only baselines, validating diagnosis-guided,
taxonomy-conditioned reward engineering and providing a reusable resource for
future research. Code and dataset will be available at
https://github.com/AIGeeksGroup/VaseVQA.