Aprimorando a Cognição e a Explicabilidade de Modelos de Fundação Multimodais com Dados Autossintetizados
Enhancing Cognition and Explainability of Multimodal Foundation Models with Self-Synthesized Data
February 19, 2025
Autores: Yucheng Shi, Quanzheng Li, Jin Sun, Xiang Li, Ninghao Liu
cs.AI
Resumo
Modelos multimodais de grande escala (LMMs) têm demonstrado capacidades impressionantes em uma ampla gama de tarefas visuais. No entanto, eles frequentemente enfrentam dificuldades com raciocínio visual refinado, falhando em identificar objetivos específicos de domínio e fornecer explicações justificáveis para suas previsões. Para abordar isso, propomos uma nova estrutura de amostragem por rejeição visual para melhorar a cognição e a explicabilidade dos LMMs utilizando dados auto-sintetizados. Especificamente, o ajuste fino visual requer imagens, consultas e respostas alvo. Nossa abordagem começa sintetizando respostas interpretáveis que incluem características visuais verificáveis por humanos. Essas características são baseadas em conceitos definidos por especialistas, cuidadosamente selecionados com base em sua alinhamento com o conteúdo da imagem. Após cada rodada de ajuste fino, aplicamos um mecanismo de filtragem sem modelo de recompensa para selecionar as respostas interpretáveis de mais alta qualidade para a próxima rodada de ajuste. Esse processo iterativo de síntese de dados e ajuste fino melhora progressivamente a capacidade do modelo de gerar explicações precisas e razoáveis. Resultados experimentais demonstram a eficácia do nosso método em melhorar tanto a precisão quanto a explicabilidade de tarefas especializadas de classificação visual.
English
Large multimodal models (LMMs) have shown impressive capabilities in a wide
range of visual tasks. However, they often struggle with fine-grained visual
reasoning, failing to identify domain-specific objectives and provide
justifiable explanations for their predictions. To address this, we propose a
novel visual rejection sampling framework to improve the cognition and
explainability of LMMs using self-synthesized data. Specifically, visual
fine-tuning requires images, queries, and target answers. Our approach begins
by synthesizing interpretable answers that include human-verifiable visual
features. These features are based on expert-defined concepts, carefully
selected based on their alignment with the image content. After each round of
fine-tuning, we apply a reward model-free filtering mechanism to select the
highest-quality interpretable answers for the next round of tuning. This
iterative process of data synthesis and fine-tuning progressively improves the
model's ability to generate accurate and reasonable explanations. Experimental
results demonstrate the effectiveness of our method in improving both the
accuracy and explainability of specialized visual classification tasks.Summary
AI-Generated Summary