Décomposition des questions visuelles sur les modèles de langage multimodaux de grande taille
Visual Question Decomposition on Multimodal Large Language Models
September 28, 2024
Auteurs: Haowei Zhang, Jianzhe Liu, Zhen Han, Shuo Chen, Bailan He, Volker Tresp, Zhiqiang Xu, Jindong Gu
cs.AI
Résumé
La décomposition des questions a émergé comme une stratégie efficace pour inciter les Grands Modèles de Langage (GML) à répondre à des questions complexes. Cependant, tandis que les méthodes existantes se concentrent principalement sur les modèles de langage unimodaux, la capacité de décomposition des questions des Grands Modèles de Langage Multimodaux (GMLM) reste à explorer. À cette fin, cet article explore la décomposition visuelle des questions sur les GMLM. Plus précisément, nous introduisons un cadre d'évaluation systématique comprenant un ensemble de données et plusieurs critères d'évaluation pour évaluer la qualité des sous-questions décomposées, révélant que les GMLM existants ont du mal à produire des sous-questions de haute qualité. Pour remédier à cette limitation, nous proposons un ensemble de données de finetuning spécifique, DecoVQA+, pour améliorer la capacité de décomposition des questions du modèle. Dans le but de permettre aux modèles d'effectuer une décomposition sélective appropriée, nous proposons un pipeline de finetuning efficace. Le pipeline de finetuning se compose de notre ensemble de données proposé et d'un objectif d'entraînement pour la décomposition sélective. Les GMLM finetunés démontrent des améliorations significatives dans la qualité des sous-questions et la politique de décomposition sélective des questions. De plus, les modèles atteignent également une précision plus élevée avec une décomposition sélective sur les ensembles de données de référence VQA.
English
Question decomposition has emerged as an effective strategy for prompting
Large Language Models (LLMs) to answer complex questions. However, while
existing methods primarily focus on unimodal language models, the question
decomposition capability of Multimodal Large Language Models (MLLMs) has yet to
be explored. To this end, this paper explores visual question decomposition on
MLLMs. Specifically, we introduce a systematic evaluation framework including a
dataset and several evaluation criteria to assess the quality of the decomposed
sub-questions, revealing that existing MLLMs struggle to produce high-quality
sub-questions. To address this limitation, we propose a specific finetuning
dataset, DecoVQA+, for enhancing the model's question decomposition capability.
Aiming at enabling models to perform appropriate selective decomposition, we
propose an efficient finetuning pipeline. The finetuning pipeline consists of
our proposed dataset and a training objective for selective decomposition.
Finetuned MLLMs demonstrate significant improvements in the quality of
sub-questions and the policy of selective question decomposition. Additionally,
the models also achieve higher accuracy with selective decomposition on VQA
benchmark datasets.Summary
AI-Generated Summary