Miglioramento della Cognizione e della Spiegabilità dei Modelli Fondamentali Multimodali con Dati Auto-Sintetizzati
Enhancing Cognition and Explainability of Multimodal Foundation Models with Self-Synthesized Data
February 19, 2025
Autori: Yucheng Shi, Quanzheng Li, Jin Sun, Xiang Li, Ninghao Liu
cs.AI
Abstract
I modelli multimodali di grandi dimensioni (LMM) hanno dimostrato capacità impressionanti in un'ampia gamma di compiti visivi. Tuttavia, spesso incontrano difficoltà nel ragionamento visivo fine, non riuscendo a identificare obiettivi specifici del dominio e a fornire spiegazioni giustificabili per le loro previsioni. Per affrontare questo problema, proponiamo un nuovo framework di campionamento per rifiuto visivo per migliorare la cognizione e l'esplicabilità degli LMM utilizzando dati auto-sintetizzati. Nello specifico, l'ottimizzazione visiva richiede immagini, query e risposte target. Il nostro approccio inizia sintetizzando risposte interpretabili che includono caratteristiche visive verificabili dall'uomo. Queste caratteristiche si basano su concetti definiti da esperti, selezionati con cura in base alla loro corrispondenza con il contenuto dell'immagine. Dopo ogni ciclo di ottimizzazione, applichiamo un meccanismo di filtraggio senza modello di ricompensa per selezionare le risposte interpretabili di qualità più elevata per il ciclo successivo di ottimizzazione. Questo processo iterativo di sintesi dei dati e ottimizzazione migliora progressivamente la capacità del modello di generare spiegazioni accurate e ragionevoli. I risultati sperimentali dimostrano l'efficacia del nostro metodo nel migliorare sia l'accuratezza che l'esplicabilità dei compiti di classificazione visiva specializzati.
English
Large multimodal models (LMMs) have shown impressive capabilities in a wide
range of visual tasks. However, they often struggle with fine-grained visual
reasoning, failing to identify domain-specific objectives and provide
justifiable explanations for their predictions. To address this, we propose a
novel visual rejection sampling framework to improve the cognition and
explainability of LMMs using self-synthesized data. Specifically, visual
fine-tuning requires images, queries, and target answers. Our approach begins
by synthesizing interpretable answers that include human-verifiable visual
features. These features are based on expert-defined concepts, carefully
selected based on their alignment with the image content. After each round of
fine-tuning, we apply a reward model-free filtering mechanism to select the
highest-quality interpretable answers for the next round of tuning. This
iterative process of data synthesis and fine-tuning progressively improves the
model's ability to generate accurate and reasonable explanations. Experimental
results demonstrate the effectiveness of our method in improving both the
accuracy and explainability of specialized visual classification tasks.Summary
AI-Generated Summary