Miglioramento della Cognizione e della Spiegabilità dei Modelli Fondamentali Multimodali con Dati Auto-Sintetizzati

Abstract

I modelli multimodali di grandi dimensioni (LMM) hanno dimostrato capacità impressionanti in un'ampia gamma di compiti visivi. Tuttavia, spesso incontrano difficoltà nel ragionamento visivo fine, non riuscendo a identificare obiettivi specifici del dominio e a fornire spiegazioni giustificabili per le loro previsioni. Per affrontare questo problema, proponiamo un nuovo framework di campionamento per rifiuto visivo per migliorare la cognizione e l'esplicabilità degli LMM utilizzando dati auto-sintetizzati. Nello specifico, l'ottimizzazione visiva richiede immagini, query e risposte target. Il nostro approccio inizia sintetizzando risposte interpretabili che includono caratteristiche visive verificabili dall'uomo. Queste caratteristiche si basano su concetti definiti da esperti, selezionati con cura in base alla loro corrispondenza con il contenuto dell'immagine. Dopo ogni ciclo di ottimizzazione, applichiamo un meccanismo di filtraggio senza modello di ricompensa per selezionare le risposte interpretabili di qualità più elevata per il ciclo successivo di ottimizzazione. Questo processo iterativo di sintesi dei dati e ottimizzazione migliora progressivamente la capacità del modello di generare spiegazioni accurate e ragionevoli. I risultati sperimentali dimostrano l'efficacia del nostro metodo nel migliorare sia l'accuratezza che l'esplicabilità dei compiti di classificazione visiva specializzati.

English

Large multimodal models (LMMs) have shown impressive capabilities in a wide range of visual tasks. However, they often struggle with fine-grained visual reasoning, failing to identify domain-specific objectives and provide justifiable explanations for their predictions. To address this, we propose a novel visual rejection sampling framework to improve the cognition and explainability of LMMs using self-synthesized data. Specifically, visual fine-tuning requires images, queries, and target answers. Our approach begins by synthesizing interpretable answers that include human-verifiable visual features. These features are based on expert-defined concepts, carefully selected based on their alignment with the image content. After each round of fine-tuning, we apply a reward model-free filtering mechanism to select the highest-quality interpretable answers for the next round of tuning. This iterative process of data synthesis and fine-tuning progressively improves the model's ability to generate accurate and reasonable explanations. Experimental results demonstrate the effectiveness of our method in improving both the accuracy and explainability of specialized visual classification tasks.

Miglioramento della Cognizione e della Spiegabilità dei Modelli Fondamentali Multimodali con Dati Auto-Sintetizzati

Enhancing Cognition and Explainability of Multimodal Foundation Models with Self-Synthesized Data

Abstract

Support