ChatPaper.aiChatPaper

Decomposição de Questão Visual em Modelos de Linguagem Multimodais de Grande Escala

Visual Question Decomposition on Multimodal Large Language Models

September 28, 2024
Autores: Haowei Zhang, Jianzhe Liu, Zhen Han, Shuo Chen, Bailan He, Volker Tresp, Zhiqiang Xu, Jindong Gu
cs.AI

Resumo

A decomposição de questões surgiu como uma estratégia eficaz para orientar Grandes Modelos de Linguagem (LLMs) a responder perguntas complexas. No entanto, enquanto os métodos existentes se concentram principalmente em modelos de linguagem unimodais, a capacidade de decomposição de questões de Modelos de Linguagem Multimodais de Grande Escala (MLLMs) ainda não foi explorada. Com esse objetivo, este artigo explora a decomposição visual de questões em MLLMs. Especificamente, introduzimos um framework de avaliação sistemática que inclui um conjunto de dados e vários critérios de avaliação para avaliar a qualidade das subquestões decompostas, revelando que os MLLMs existentes têm dificuldade em produzir subquestões de alta qualidade. Para lidar com essa limitação, propomos um conjunto de dados específico para ajuste fino, o DecoVQA+, para aprimorar a capacidade de decomposição de questões do modelo. Com o objetivo de capacitar os modelos a realizar uma decomposição seletiva apropriada, propomos um pipeline eficiente de ajuste fino. O pipeline de ajuste fino consiste em nosso conjunto de dados proposto e um objetivo de treinamento para decomposição seletiva. Os MLLMs ajustados finamente demonstram melhorias significativas na qualidade das subquestões e na política de decomposição seletiva de questões. Além disso, os modelos também alcançam uma maior precisão com a decomposição seletiva em conjuntos de dados de referência VQA.
English
Question decomposition has emerged as an effective strategy for prompting Large Language Models (LLMs) to answer complex questions. However, while existing methods primarily focus on unimodal language models, the question decomposition capability of Multimodal Large Language Models (MLLMs) has yet to be explored. To this end, this paper explores visual question decomposition on MLLMs. Specifically, we introduce a systematic evaluation framework including a dataset and several evaluation criteria to assess the quality of the decomposed sub-questions, revealing that existing MLLMs struggle to produce high-quality sub-questions. To address this limitation, we propose a specific finetuning dataset, DecoVQA+, for enhancing the model's question decomposition capability. Aiming at enabling models to perform appropriate selective decomposition, we propose an efficient finetuning pipeline. The finetuning pipeline consists of our proposed dataset and a training objective for selective decomposition. Finetuned MLLMs demonstrate significant improvements in the quality of sub-questions and the policy of selective question decomposition. Additionally, the models also achieve higher accuracy with selective decomposition on VQA benchmark datasets.

Summary

AI-Generated Summary

PDF92November 13, 2024