ChatPaper.aiChatPaper

VaseVQA: Мультимодальный агент и эталонный набор данных для древнегреческой керамики

VaseVQA: Multimodal Agent and Benchmark for Ancient Greek Pottery

September 21, 2025
Авторы: Jinchao Ge, Tengfei Cheng, Biao Wu, Zeyu Zhang, Shiya Huang, Judith Bishop, Gillian Shepherd, Meng Fang, Ling Chen, Yang Zhao
cs.AI

Аннотация

Анализ артефактов культурного наследия остается сложной задачей для мультимодальных языковых моделей (MLLM): общие модели не обладают экспертизой в предметной области, а тонкая настройка (SFT) часто приводит к переобучению поверхностным паттернам, что делает рассуждения хрупкими для задач аутентификации и исторической атрибуции. Это поднимает вопрос о том, как наделить MLLM устойчивым, экспертно-уровневым рассуждением для древнегреческой керамики. Мы представляем VaseVL, систему, основанную на SFT с последующим обучением с подкреплением (RL), которая превращает оценку в супервизию: мы создаем таксономию типов вопросов, исследуем SFT-модель для выявления пробелов в производительности, специфичных для каждого типа, и оптимизируем с помощью наград, ориентированных на композиционность и учитывающих тип, чтобы устранить эти пробелы. Мы также выпускаем VaseVQA, комплексный бенчмарк из 31 773 изображений, предназначенный для проверки глубокого понимания. Эксперименты демонстрируют передовые результаты в классификации стилей и исторической атрибуции с заметным улучшением композиционной устойчивости по сравнению с базовыми моделями, использующими только SFT, что подтверждает эффективность диагностически-ориентированного инжиниринга наград с учетом таксономии и предоставляет повторно используемый ресурс для будущих исследований. Код и набор данных будут доступны по адресу https://github.com/AIGeeksGroup/VaseVQA.
English
Analyzing cultural-heritage artifacts remains challenging for MLLMs: general models lack domain expertise, and SFT often overfits superficial patterns, yielding brittle reasoning for authentication and historical attribution. This raises the question of how to equip MLLMs with robust, expert-level reasoning for ancient Greek pottery. We present VaseVL, an SFT-then-RL system that turns evaluation into supervision: we construct a taxonomy of question types, probe the SFT model to localize type-specific performance gaps, and optimize with type-conditioned, compositionality-oriented rewards targeting those gaps. We also release VaseVQA, a comprehensive benchmark of 31,773 images designed to probe deep understanding. Experiments show state-of-the-art results on style classification and historical attribution with marked gains in compositional robustness over SFT-only baselines, validating diagnosis-guided, taxonomy-conditioned reward engineering and providing a reusable resource for future research. Code and dataset will be available at https://github.com/AIGeeksGroup/VaseVQA.
PDF12September 23, 2025