Улучшение когнитивных способностей и объяснимости мультимодальных базовых моделей с использованием самостоятельно синтезированных данных
Enhancing Cognition and Explainability of Multimodal Foundation Models with Self-Synthesized Data
February 19, 2025
Авторы: Yucheng Shi, Quanzheng Li, Jin Sun, Xiang Li, Ninghao Liu
cs.AI
Аннотация
Крупные мультимодальные модели (LMM) продемонстрировали впечатляющие способности в решении широкого спектра визуальных задач. Однако они часто испытывают трудности с детализированным визуальным анализом, неспособны идентифицировать специфические для предметной области цели и предоставлять обоснованные объяснения своих предсказаний. Для решения этой проблемы мы предлагаем новый фреймворк визуального отбора с отклонением, направленный на улучшение когнитивных способностей и объяснимости LMM с использованием самостоятельно синтезированных данных. В частности, визуальная донастройка требует наличия изображений, запросов и целевых ответов. Наш подход начинается с синтеза интерпретируемых ответов, включающих визуальные признаки, которые могут быть проверены человеком. Эти признаки основаны на экспертно определенных концепциях, тщательно отобранных в соответствии с их соответствием содержанию изображения. После каждого этапа донастройки мы применяем механизм фильтрации без использования модели вознаграждения для выбора интерпретируемых ответов наивысшего качества для следующего этапа настройки. Этот итеративный процесс синтеза данных и донастройки постепенно улучшает способность модели генерировать точные и обоснованные объяснения. Экспериментальные результаты подтверждают эффективность нашего метода в повышении как точности, так и объяснимости специализированных задач визуальной классификации.
English
Large multimodal models (LMMs) have shown impressive capabilities in a wide
range of visual tasks. However, they often struggle with fine-grained visual
reasoning, failing to identify domain-specific objectives and provide
justifiable explanations for their predictions. To address this, we propose a
novel visual rejection sampling framework to improve the cognition and
explainability of LMMs using self-synthesized data. Specifically, visual
fine-tuning requires images, queries, and target answers. Our approach begins
by synthesizing interpretable answers that include human-verifiable visual
features. These features are based on expert-defined concepts, carefully
selected based on their alignment with the image content. After each round of
fine-tuning, we apply a reward model-free filtering mechanism to select the
highest-quality interpretable answers for the next round of tuning. This
iterative process of data synthesis and fine-tuning progressively improves the
model's ability to generate accurate and reasonable explanations. Experimental
results demonstrate the effectiveness of our method in improving both the
accuracy and explainability of specialized visual classification tasks.Summary
AI-Generated Summary