VaseVQA: Agente multimodal y punto de referencia para la cerámica de la antigua Grecia
VaseVQA: Multimodal Agent and Benchmark for Ancient Greek Pottery
September 21, 2025
Autores: Jinchao Ge, Tengfei Cheng, Biao Wu, Zeyu Zhang, Shiya Huang, Judith Bishop, Gillian Shepherd, Meng Fang, Ling Chen, Yang Zhao
cs.AI
Resumen
El análisis de artefactos del patrimonio cultural sigue siendo un desafío para los MLLM (Modelos Multilingües de Lenguaje): los modelos generales carecen de experiencia en el dominio, y el Ajuste Superficial (SFT, por sus siglas en inglés) a menudo sobreajusta patrones superficiales, lo que resulta en un razonamiento frágil para la autenticación y atribución histórica. Esto plantea la pregunta de cómo equipar a los MLLM con un razonamiento robusto y de nivel experto para la cerámica griega antigua. Presentamos VaseVL, un sistema de SFT seguido de Aprendizaje por Refuerzo (RL) que convierte la evaluación en supervisión: construimos una taxonomía de tipos de preguntas, analizamos el modelo SFT para localizar brechas de rendimiento específicas por tipo, y optimizamos con recompensas orientadas a la composicionalidad y condicionadas por tipo, dirigidas a esas brechas. También lanzamos VaseVQA, un benchmark integral de 31,773 imágenes diseñado para explorar la comprensión profunda. Los experimentos muestran resultados de vanguardia en la clasificación de estilos y la atribución histórica, con mejoras significativas en la robustez composicional en comparación con líneas base que solo usan SFT, validando la ingeniería de recompensas guiada por diagnóstico y condicionada por taxonomía, y proporcionando un recurso reutilizable para futuras investigaciones. El código y el conjunto de datos estarán disponibles en https://github.com/AIGeeksGroup/VaseVQA.
English
Analyzing cultural-heritage artifacts remains challenging for MLLMs: general
models lack domain expertise, and SFT often overfits superficial patterns,
yielding brittle reasoning for authentication and historical attribution. This
raises the question of how to equip MLLMs with robust, expert-level reasoning
for ancient Greek pottery. We present VaseVL, an SFT-then-RL system that turns
evaluation into supervision: we construct a taxonomy of question types, probe
the SFT model to localize type-specific performance gaps, and optimize with
type-conditioned, compositionality-oriented rewards targeting those gaps. We
also release VaseVQA, a comprehensive benchmark of 31,773 images designed to
probe deep understanding. Experiments show state-of-the-art results on style
classification and historical attribution with marked gains in compositional
robustness over SFT-only baselines, validating diagnosis-guided,
taxonomy-conditioned reward engineering and providing a reusable resource for
future research. Code and dataset will be available at
https://github.com/AIGeeksGroup/VaseVQA.