Décomposition des questions visuelles sur les modèles de langage multimodaux de grande taille

papers.abstract

La décomposition des questions a émergé comme une stratégie efficace pour inciter les Grands Modèles de Langage (GML) à répondre à des questions complexes. Cependant, tandis que les méthodes existantes se concentrent principalement sur les modèles de langage unimodaux, la capacité de décomposition des questions des Grands Modèles de Langage Multimodaux (GMLM) reste à explorer. À cette fin, cet article explore la décomposition visuelle des questions sur les GMLM. Plus précisément, nous introduisons un cadre d'évaluation systématique comprenant un ensemble de données et plusieurs critères d'évaluation pour évaluer la qualité des sous-questions décomposées, révélant que les GMLM existants ont du mal à produire des sous-questions de haute qualité. Pour remédier à cette limitation, nous proposons un ensemble de données de finetuning spécifique, DecoVQA+, pour améliorer la capacité de décomposition des questions du modèle. Dans le but de permettre aux modèles d'effectuer une décomposition sélective appropriée, nous proposons un pipeline de finetuning efficace. Le pipeline de finetuning se compose de notre ensemble de données proposé et d'un objectif d'entraînement pour la décomposition sélective. Les GMLM finetunés démontrent des améliorations significatives dans la qualité des sous-questions et la politique de décomposition sélective des questions. De plus, les modèles atteignent également une précision plus élevée avec une décomposition sélective sur les ensembles de données de référence VQA.

English

Question decomposition has emerged as an effective strategy for prompting Large Language Models (LLMs) to answer complex questions. However, while existing methods primarily focus on unimodal language models, the question decomposition capability of Multimodal Large Language Models (MLLMs) has yet to be explored. To this end, this paper explores visual question decomposition on MLLMs. Specifically, we introduce a systematic evaluation framework including a dataset and several evaluation criteria to assess the quality of the decomposed sub-questions, revealing that existing MLLMs struggle to produce high-quality sub-questions. To address this limitation, we propose a specific finetuning dataset, DecoVQA+, for enhancing the model's question decomposition capability. Aiming at enabling models to perform appropriate selective decomposition, we propose an efficient finetuning pipeline. The finetuning pipeline consists of our proposed dataset and a training objective for selective decomposition. Finetuned MLLMs demonstrate significant improvements in the quality of sub-questions and the policy of selective question decomposition. Additionally, the models also achieve higher accuracy with selective decomposition on VQA benchmark datasets.

Décomposition des questions visuelles sur les modèles de langage multimodaux de grande taille

Visual Question Decomposition on Multimodal Large Language Models

papers.abstract

Support