Aprimorando a Cognição e a Explicabilidade de Modelos de Fundação Multimodais com Dados Autossintetizados

Resumo

Modelos multimodais de grande escala (LMMs) têm demonstrado capacidades impressionantes em uma ampla gama de tarefas visuais. No entanto, eles frequentemente enfrentam dificuldades com raciocínio visual refinado, falhando em identificar objetivos específicos de domínio e fornecer explicações justificáveis para suas previsões. Para abordar isso, propomos uma nova estrutura de amostragem por rejeição visual para melhorar a cognição e a explicabilidade dos LMMs utilizando dados auto-sintetizados. Especificamente, o ajuste fino visual requer imagens, consultas e respostas alvo. Nossa abordagem começa sintetizando respostas interpretáveis que incluem características visuais verificáveis por humanos. Essas características são baseadas em conceitos definidos por especialistas, cuidadosamente selecionados com base em sua alinhamento com o conteúdo da imagem. Após cada rodada de ajuste fino, aplicamos um mecanismo de filtragem sem modelo de recompensa para selecionar as respostas interpretáveis de mais alta qualidade para a próxima rodada de ajuste. Esse processo iterativo de síntese de dados e ajuste fino melhora progressivamente a capacidade do modelo de gerar explicações precisas e razoáveis. Resultados experimentais demonstram a eficácia do nosso método em melhorar tanto a precisão quanto a explicabilidade de tarefas especializadas de classificação visual.

English

Large multimodal models (LMMs) have shown impressive capabilities in a wide range of visual tasks. However, they often struggle with fine-grained visual reasoning, failing to identify domain-specific objectives and provide justifiable explanations for their predictions. To address this, we propose a novel visual rejection sampling framework to improve the cognition and explainability of LMMs using self-synthesized data. Specifically, visual fine-tuning requires images, queries, and target answers. Our approach begins by synthesizing interpretable answers that include human-verifiable visual features. These features are based on expert-defined concepts, carefully selected based on their alignment with the image content. After each round of fine-tuning, we apply a reward model-free filtering mechanism to select the highest-quality interpretable answers for the next round of tuning. This iterative process of data synthesis and fine-tuning progressively improves the model's ability to generate accurate and reasonable explanations. Experimental results demonstrate the effectiveness of our method in improving both the accuracy and explainability of specialized visual classification tasks.

Aprimorando a Cognição e a Explicabilidade de Modelos de Fundação Multimodais com Dados Autossintetizados

Enhancing Cognition and Explainability of Multimodal Foundation Models with Self-Synthesized Data

Resumo

Support